理解Token的概念、分词过程以及在大语言模型中的重要作用
输入: "Hello, world!" Token: ["Hello", ",", " world", "!"] Token数量: 4
输入: "你好,世界!" Token: ["你", "好", ",", "世", "界", "!"] Token数量: 6
输入: "OpenAI的GPT-4很强大" Token: ["Open", "AI", "的", "GPT", "-", "4", "很", "强", "大"] Token数量: 9
输入: "请写一首关于春天的诗" (12 Token) 输出: "春风吹绿江南岸..." (约100 Token) 总计: 112 Token
<BOS>
<EOS>
<UNK>
<PAD>
# tiktoken (OpenAI) import tiktoken encoding = tiktoken.get_encoding("cl100k_base") tokens = encoding.encode("你好世界") print(f"Token数量: {len(tokens)}") # transformers (Hugging Face) from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("gpt2") tokens = tokenizer.encode("Hello world")