Съдържание
Токеновый налог на не английский язык Наткнулся на интересный эксперимент ML рисерчера Aran Komatsuzaki. Он протестировал, насколько модели эффективно используют токены на разных языках. Результаты очень интересные 👨🔬 Суть эксперимента Аран взял короткую статью и токенизировал ее на английском с помощью OpenAI токенизатора. Взял это за бейзлайн. А дальше начал переводить статью на другие языки и подсчитывать количество токенов, затрачиваемых разным моделями на тот же самый текст на других языках. Оказалось, что «налог» на не английский язык есть Большинство LLM жрут дополнительные токены на не английском. Например, если вы общаетесь на русском языке с моделями — вы тратите в среднем в 1,5 раза больше токенов! А из всех моделей больше всех токенов ест, сюрприз-сюрприз, Anthropic! Вот куда вылетают ваши лимиты в Claude. Самыми универсальными моделями оказались Gemini 3.1 и Qwen 3.6. Они едят всего на ~23% больше токенов в среднем на не английском языке. Почему так? Токенизаторы — это специальные алгоритмы, которые нарезают язык на «кусочки» так, чтобы LLM обрабатывала язык наиболее эффективно. В идеале токенизатор разбивает слова на корни, приставки, суффиксы и тд. То есть наследует «структуру языка». И тогда однокоренные слова в векторном пространстве находятся очень близко. Но все усложняется, когда токенизатору нужно научиться эффективно нарезать несколько языков. Особенно таких разных как английский, китайский и арабский. Вот оттуда и растут ноги. Во-первых, большинство популярных LLM родом из США. Поэтому когда модель всячески оптимизируется — это делается на бенчмарках на английском языке. Соответственно, так или иначе английский токенизируется лучше всех. Но есть и во-вторых. Разные языки имеют разную «емкость». То есть разные языки могут вместить разное количества смысла в одно и то же количество слов/символов/токенов. И это, кстати, одна из причин, почему китайский язык даже у «англоговорящих» моделей подвержен наименьшему «налогу». Китайский очень емкий. Интересно было бы посмотреть такую эффективность токенизации для русского матного 😈 У этого есть цена Не даром это назвали «налогом». Ведь такая неэффективность буквально выливается в повышенные расходы и в уменьшенную точность моделей на не английских языках. 1. Меньше информации влезает в контекстное окно. 2. Больше токенов тратится, чтобы обработать тот же «смысл». 3. Дольше обрабатывается запрос. Не дай бог модель под капотом начнет «думать» на хинди. Абсолютно бесполезное сожжение 3х большего количества токенов. Лайфхаки будут? 😬 Избежать «налога» крайне сложно. Он зашит на этапе обучения модели. Так что не то чтобы есть много лайфхаков. 1. Самое простое - говорите с моделью на английском языке. 2. Если говорить на английском не можете, как минимум просите модель размышлять на английском. Это сэкономит невидимые для вас токены. 3. Можно пробовать приколюхи типа caveman. Скилл, который заставляет модель общаться, как пещерный человек. 4. Ну и самый хитрый вариант — настройте агента-переводчика на базе Gemma. Gemma 4 отлично говорит на большинстве языков. Она маленькая и влезает на любой комп. Сделайте маленького сабагента, единственная задача которого быть переводчиком между вами и англоговорящей моделью. Таким образом самую расходную часть мы кладем на плечи локальной бесплатной модели. #ИИстатья Заместители