Post #506

@MachineLearningResearch

AML

Views36Post view count

PostedNov 2911/29/2025, 02:27 PM

Post content

Статья китайских товарищей в Nature показывает ураганный темп приближения эпохи "десятки миллиардов устройств с Ml вокруг нас Статья вводит новый «закон уплотнения» LLM и аккуратно намекает, что текущие GPT-класса модели в обозримые годы смогут ужаться до формата, пригодного для локального запуска на смартфонах Авторы вводят метрику "capacity/capability density" - грубо, сколько «эффективных параметров» даёт один реальный параметр модели Если модель по качеству как 100-миллиардная, а реальных параметров у неё 10, её density ≈ 10 количество параметров, необходимых для достижения аналогичной производительности, уменьшается экспоненциально с течением времени В частности, размер параметра LLM с эквивалентной производительностью уменьшается вдвое примерно каждые 3,5 месяца Например, MiniCPM-1-2.4B, выпущенный 1 февраля 2024 года, может достичь сопоставимой или даже превосходящей производительности с Mistral-7B, выпущенным 27 сентября 2023 года Это означает, что всего через четыре месяца LLM с всего лишь 35 % параметров может достичь примерно эквивалентной производительности При фиксированном числе параметров новые модели всё лучше «выжимают» качество - благодаря лучшим датасетам, чистке данных, архитектурным и тренинг-трюкам (MoE, KV-оптимизации и т.п.), а не революционным новым архитектурам Цена API за заданный уровень качества тоже падает экспоненциально - мощность на доллар растёт в декабре 2022 года GPT-3.5 стоил $20 за миллион токенов, тогда как к августу 2024 года Gemini-1.5-Flash стоил всего $0.075 за то же количество токенов, что представляет собой снижение в 266.7 раза Грубо говоря, стоимость вывода для LLM сокращается вдвое примерно каждые 2.6 месяца Если capability density удваивается раз в ~3–3.5 месяца, то "будущие более сильные LLM смогут работать на более дешёвых чипах, обеспечивая эффективный локальный inference в ресурсно-ограниченных сценариях вроде мобильных устройств и IoT Модели, которые сегодня требуют топовый GPU, в будущем смогут давать ту же или лучшую производительность на чипах среднего и даже нижнего класса - то есть барьер по железу для edge-Ml будет постоянно падать Что это значит для распространения Ml? В 2024–2025 мы имеем 3–7B-модели, которые терпимо работают на флагманских смартфонах; при продолжении текущего тренда densing law и эволюции мобильных NPU реалистично ожидать, что "сегодняшний middle-/upper-tier GPT" сможет крутиться локально на топовых смартфонах где-то в интервале 2–4 лет от текущей точки (конец 2020-х)