TGTGInsighttelegram intelligenceLIVE / telegram public index
← 404 KIDS SEE GHOSTS (生产力之王版
404 KIDS SEE GHOSTS (生产力之王版 avatar

TGINSIGHT POST

Post #884

@Isaiahsystem

404 KIDS SEE GHOSTS (生产力之王版

Views3,580帖子阅读量
发布5月14日2023/05/14 02:28
Post content

帖子内容

顺便简单科普下 Token 和字符( Characters) 上面 Claude 100K Token 上下文并不代表支持英文的 10 万个词,而大约是 75000 个单词(Words)。Token 是自然语言处理中的文本基本单位,它可以是一个单词/标点/词组,字符(Characters)是指文本中的单个符号,例如汉字/英文单个字母/数字/标点/空格都是。(有的笔记软件文本统计大家可能熟悉) 比如 I want a pizza,4 Tokens 14 Characters;我想要一个披萨,15 Tokens 7 Characters. Why is GPT-3 15.77x more expensive for certain languages? Token 和字符之间的关系取决于具体的标记化(Tokenization),分词器(Tokenizers),将字符和单词组合成通用模式的方法。这意味着不同的语言处理,Token 的消耗是不同的,甚至有高达 15 倍之多的语言差异,所有之前有文章提到过 GPT 对非英语母语使用者的歧视。 现在英语可以说是最强「编程语言」,使用 GPT 等生成工具时可尽量英文输入,以支持更多内容/更好效果。甚至还有个优化单词输入的网站,以更少的 Token 达到同样输出效果,后面翻到了再补充。 Reference English is the new programming language shit. #AI