Съдържание
Смотрим "под правильным углом": развитие локальных LLM и еще один скачок качества топовых LLM За последние 2 недели произошло сразу два интересных анонса: TurboQuant от Google и Bonsai от PrismML. Они бьют в самую больную точку современных LLM: дефицит железа. GPU больше неглавная проблема Последние несколько лет все боялись, что закончатся GPU. Проклятые майнеры и ИИ лишили порядочных геймеров видеокарт. Но теперь ситуация дополнилась еще и дефицитом оперативы и даже обычной SSD памяти! В части ИИ на то есть две основные причины: 1. Сами модели стали огромными и их веса занимают сотни гигабайт. 2. Растет контекстное окно моделей — а это напрямую влияет на объем кеширования Key-Values внутри "механизма внимания" (лучше всех, что это такое, объяснили HF). Например, смотрим на Qwen3.5-397B-A17B, которая сравнима с GPT 5.2 и Gemini 3 Pro по бенчмаркам. Так вот эта скотина жрет 810 GB RAM+VRAM (оперативная память). Ну и представьте, сколько инстансов моделей запущено в датацентрах, чтобы обслуживать весь мир всем разнообразием моделей 👀 Ситуация усложняется тем, что закон масштабирования моделей все еще продолжает работать — больше параметров в LLM — лучше ее перфоманс. Корпорации начали решать эти проблемы Делать это начали уже давно через квантование. Простыми словами любое квантование — это сжатие вектора (вектора — это главный строительный кирпичик, из которого строится и которым оперирует любая LLM). Меньше длина чисел вектора = меньше памяти требуется для хранения и запуска модели. Проблема в том, что это несет за собой потери качества. Собственно об этом и были новости за последние 2 недели. Во-первых, Caltech и PrismML разработали подход по сжатию самого веса модели (чекпоинтов) — Bonsai. Они сжали Qwen3-8B весом в 16.38 GB в 14 раз, до 1.15 GB. Точность модели в среднем по бенчмаркам упала при этом всего на 11%. То есть невероятно выгодный трейдофф! Как? 1-битное представление всех весов модели вместо оригинального 16-битного. Но как именно они сохраняют такую точность при таком сжатии — технологию не раскрывают. Кстати, вы можете сами потестить эту модель прямо на вашем айфоне в Locally AI. Во-вторых, TurboQuant от Google. Гуглойды придумали как сжимать KV кеш. Так они решают вторую проблему с растущим контекстным окном. Процесс состоит из 2х этапов: 1. PolarQuant — трансформация длинных векторов координат в комбинацию радиус + угол. Это старый математический трюк. Но они его дополнили другим старым трюком: добавили рандомный поворот вектора. Не вдаваясь в детали это нужно для того, чтобы сгладить всплески в данных и избежать неверных округлений. Именно неверные округления в данном подходе раньше приводили к серьезной деградации качества — теперь нет. 2. QJL (Quantized Johnson Lindenstrauss) трансформация направлена на исправление остаточных ошибок первого этапа. Тут чисто линейная алгебра, простыми словами уже фиг объяснишь 🤙Читайте источник, если хотите загрузиться. На выходе — при квантизации до 3.5 битов — снижение кеша в 6 раз и нулевые потери качества на бенчмарках по работе с длинным контекстом. Решали большую проблему, а решат еще и "маленькую" Понятно, что главным образом корпорации хотят снизить потребление железа на вычисления. Вдогонку хотят еще и делать модельки типа новой Gemma 4, которые будут ставиться в edge устройства. Но побочный неизбежный эффект — в обозримом будущем мы увидим у себя на ПК локальные "маленькие" модели с качеством не сильно хуже текущих топовых моделей. Если уже сейчас вес моделей можно снижать в 14 раз, а размер кеша в 6 раз, то это значит что на Макбук можно уже поставить модельку, которая в оригинале имеет примерно 80-100B параметров. При этом передовые LLM, похоже, сделают очередной скачок в качестве. Потому что "освободившуюся" память от квантования корпорации используют не на горизонтальное масштабирование текущих моделей, а на то, чтобы выдавить еще мощи из закона масштабирования LLM. То есть обучат модели в 10 раз больше, квантизируют их без потери качества и запустят на текущем железе в погоне за AGI. #ИИстатья Заместители