📌Google разработала алгоритм квантования KV-кэша без потери точности.
Подразделение Research анонсировало TurboQuant, алгоритм векторного квантования, объединяющий 2 других метода - QJL и PolarQuant, который решает проблему увеличения KV-кэша при работе с длинным контекстом.
TurboQuant будет представлен на ICLR 2026, PolarQuant - на AISTATS 2026.
KV-кэш хранит промежуточные представления токенов, чтобы модель не пересчитывала их на каждом шаге генерации. С ростом контекста он превращается в узкое место по памяти.
Обычное векторное квантование сжимает эти данные, но вносит накладные расходы: для каждого блока нужно хранить константы квантования в полной точности, а это плюс 1–2 бита на элемент, что частично обесценивает само сжатие.
🟡TurboQuant - двухэтапный пайплайн.
Сначала PolarQuant: случайный поворот выравнивает геометрию векторов, после чего они переводятся из декартовых координат в полярные (радиус и угол). Распределение углов оказывается предсказуемым и сконцентрированным, поэтому нормализация и хранение дополнительных констант становятся больше не нужны.
На втором этапе подключается QJL, метод на основе преобразования Джонсона-Линденштраусса, который кодирует остаточную ошибку первого этапа всего одним знаковым битом и через встроенную оценочную функцию сочетает высокоточный запрос с низкоточными сжатыми данными, корректно вычисляя attention score.
Ни один из методов не требует обучения или дообучения и работает в режиме "без предварительного анализа набора данных".
Алгоритмы тестили на бенчмарках для длинного контекста: LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval с моделями Gemma и Mistral.
При квантовании KV-кэша до 3 бит TurboQuant показал нулевую деградацию точности на всех задачах: поиск «иголки в стоге сена», QA, генерация кода, суммаризация.
Объем KV-кэша при этом сократился в 6 раз. На H100 четырехбитный TurboQuant ускорил вычисление attention-логитов до 8 раз по сравнению с 32-битными ключами.
Область применения не ограничивается KV-кэшем. В экспериментах с высокоразмерным векторным поиском TurboQuant стабильно превзошел по recall методы PQ и RaBitQ несмотря на то, что те использовали крупные код-буки и подстройку под конкретный датасет.
🟡Статья
🟡Arxiv
@ai_machinelearning_big_data
🎯Полезные Мл-ресурсы🚀Max
#AI#ML#LLM#TurboQuant#Google
📌Google разработала алгоритм квантования KV-кэша без потери точности.
Подразделение Research анонсировало TurboQuant, алгоритм векторного квантования, объединяющий 2 других метода - QJL и PolarQuant, который решает проблему увеличения KV-кэша при работе с длинным контекстом.
TurboQuant будет представлен на ICLR 2026, PolarQuant - на AISTATS 2026.
KV-кэш хранит промежуточные представления токенов, чтобы модель не пересчитывала их на каждом шаге генерации. С ростом контекста он превращается в узкое место по памяти.
Обычное векторное квантование сжимает эти данные, но вносит накладные расходы: для каждого блока нужно хранить константы квантования в полной точности, а это плюс 1–2 бита на элемент, что частично обесценивает само сжатие.
🟡TurboQuant - двухэтапный пайплайн.
Сначала PolarQuant: случайный поворот выравнивает геометрию векторов, после чего они переводятся из декартовых координат в полярные (радиус и угол). Распределение углов оказывается предсказуемым и сконцентрированным, поэтому нормализация и хранение дополнительных констант становятся больше не нужны.
На втором этапе подключается QJL, метод на основе преобразования Джонсона-Линденштраусса, который кодирует остаточную ошибку первого этапа всего одним знаковым битом и через встроенную оценочную функцию сочетает высокоточный запрос с низкоточными сжатыми данными, корректно вычисляя attention score.
Ни один из методов не требует обучения или дообучения и работает в режиме "без предварительного анализа набора данных".
Алгоритмы тестили на бенчмарках для длинного контекста: LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval с моделями Gemma и Mistral.
При квантовании KV-кэша до 3 бит TurboQuant показал нулевую деградацию точности на всех задачах: поиск «иголки в стоге сена», QA, генерация кода, суммаризация.
Объем KV-кэша при этом сократился в 6 раз. На H100 четырехбитный TurboQuant ускорил вычисление attention-логитов до 8 раз по сравнению с 32-битными ключами.
Область применения не ограничивается KV-кэшем. В экспериментах с высокоразмерным векторным поиском TurboQuant стабильно превзошел по recall методы PQ и RaBitQ несмотря на то, что те использовали крупные код-буки и подстройку под конкретный датасет.
🟡Статья
🟡Arxiv
@ai_machinelearning_big_data
🎯Полезные Мл-ресурсы🚀Max
#AI#ML#LLM#TurboQuant#Google
⭐️Nous Research открыла исходный код Nomos 1.
При размере всего 30B параметров модель набрала 87/120 на Putnam - одном из самых престижных математических конкурсов в мире.
Такой результат соответствовал бы 2-му месту среди 3988 участников в 2024 году.
Nomos 1 показала 87/120 и восемь идеальных решений. Для сравнения: Qwen3-30B при тех же условиях получила 24/120. Это подчёркивает, что преимущество Nomos связано прежде всего с качеством обучения и данных, а не с тестовой средой.
Проверка решений проходила вслепую: их оценивал реальный участник Putnam из топ-200, получивший обезличенные ответы.
Задачи решались в тех же временных рамках, что и у участников - по 3 часа на каждую часть.
Система рассуждений устроена так:
— сначала “workers” решают наиболее сложные задачи и сами оценивают свои решения;
— затем этап финализации, ИИ объединяет ответы и выбирает итоговый вариант.
▪HF: https://huggingface.co/NousResearch/nomos-1
▪Github: https://github.com/NousResearch/nomos
@ai_machinelearning_big_data
#llm#ml#ai
✔️Представлен новый метод для понимания работы больших языковых моделей — SAE Boost
Метод помогает увидеть на какие внутренние признаки опирается ИИ, когда формирует ответы без переобучения всей модели.
В основе — дополнительный автоэнкодер, который обучается на остаточной ошибке базовой модели и вылавливает редкие, специализированные сигналы, влияющие на решение модели. Sae Boost уже протестировали на тестах по химии, документах ООН и русскоязычном контенте – метод показал значительное улучшение качества реконструкции (explained variance) и снижения перекрестной энтропии LLM (LLM cross-entropy) на специализированных доменах.
@ai_machinelearning_big_data
#news#ai#ml#llm
✔️T-Pro 2.0 — LLM с гибридным режимом рассуждений
Т-Банк релизнул модель с гибридным ризонингом в опенсорс.
T-Pro 2.0 дообучили на основе Qwen3 32B, улучшив качество и скорость генерации на русском языке.
Вместе с моделью впервые выложили инструктивный датасет. Как дообучали модель сегодня рассказали на Turbo ML конфе и выложили на хабр.
✔️Дообучение модели T-Pro 2.0 проходило в несколько этапов.
На основе токенизатора Qwen3 и с помощью расширения его кириллической части более, чем в 5 раз, разработчики получили улучшенный токенизатор для мультилингвальных моделей. По итогу токенизатор оказался на 30% более эффективен для русского языка. Затем за счет плотного токенизатора на двух доменах (чатовые запросы ru-arena-hard и олимпиадные математические задачи из T-Math) ускорили инференс.
Следующим шагом было дообучение на большом русскоязычном инструктивном корпусе. Далее модель дообучали на более чистом SFT-сете, сформированном из разнообразных промптов, собранных вручную, из открытых источников и переводов англоязычных наборов данных. Для формирования итогового датасета ответы на инструкции генерировались с помощью более мощных моделей, таких как DeepSeek-V3 0324 и Qwen3-235B-A22B. Это позволило обеспечить высокий уровень точности и релевантности.
На стадии Preference tuning для обучения DPO сформировали набор данных с фильтрацией по длине и типу для general-инструкций и сохранением баланса доменов для reasoning-инструкций.
На финальном этапе Speculative decoding в качестве драфт- модели выбрали EAGLE 1 с генерацией драфта во время инференса с помощью tree attention согласно EAGLE 2.
✔️Бенчмарки моделей
Для того, чтобы оценить способности моделей к ведению диалога, следованию инструкциям и решению задач разработчики использовали LLM-as-a-judge-арены: Arena Hard Ru, Arena Hard 2 и арену WildChat Hard Ru. В последней в качестве бейзлайна использовались ответы модели o3-mini, а “судьей” для всех арен выступал DeepSeek V3 0324. Для оценки знаний о мире и общим логическим способностям моделей на русском языке использовались бенчмарки MERA, MaMuRAMu, ruMMLU, ruMMLU-Pro.
Бенчмарки AIME, MATH-500, GPQA Diamond, Vikhr Math, Vikhr Physics, LiveCodeBench v4_v5 позволили оценить способности reasoning-модели к рассуждениям и решению сложных задач. Англоязычные бенчмарки были целиком локализованы на русский язык ИИ-тренерами: ruAIME, ruMATH-500, ru GPQA Diamond, ruLCB. Компания также использовала свой бенчмарк Т-Math, чтобы расширить оценку математических способностей на русском языке.
✔️Задачи, которые закрывает T-Pro 2.0
Дообучение даже продвинутых LLM позволяет управлять стоимостью инференса и скоростью генерации, дообучать важные домены (саппорта или распределение внутреннего промтинга), уменьшить количества артефактов и проблем с русским языком.
Модель T-Pro 2.0 доступна по лицензии Apache 2.0, ее можно бесплатно использовать как для решения задач в промптинге, так и для дообучения на свои задачи.
▪️Hugging face:T-Pro 2.0
Датасет T-wix
@ai_machinelearning_big_data
#news#ai#ml#llm
⚡️«Норникель» выложил MetalGPT-1 - 32B LLM, обученную на миллионe закрытых технологических документов по металлургии и добыче.
Важно не только то, что это доменная модель. Важно каким типом данных её кормили.
Технологические протоколы, регламенты, НИОКР, строй- и проектная документация - это не тексты в привычном ML-смысле.
Это формализованные фрагменты производственного мира: язык процессов, цепочек, ограничений, рисков.
Обучая LLM на таком корпусе, компания фактически создаёт отдельный “data-reality layer”, который универсальные модели просто не видят. И в этом - главная новость.
Появляется новая парадигма: не “адаптируем GPT под домен”, а строим ИИ вокруг индустриального мира как первичного источника данных.
MetalGPT-1 - всего лишь первый пример. Дальше будут модели для химтеха, логистики, энергетики, строительства. У каждой отрасли — собственный язык, собственный датасет, собственная реальность.
И это значит, что domain-first LLM перестают быть экспериментом. Они становятся инфраструктурой.
https://huggingface.co/nn-tech
#llm#ml
📈 OpenAI и Anthropic показывают взрывной рост прибыли в 2025.
— OpenAI удвоили ARR* за полгода: $6B → $12B
— Anthropic выросли в 5 раз за 7 месяцев: $1B → $5B
*ARR (Annual Recurring Revenue) — это годовой повторяющийся доход, один из ключевых финансовых показателей для компаний, особенно в сфере подписок (например, SaaS).
🧻 Интересное распределение выручки:
— OpenAI лидирует в подписках (частные и корпоративные пользователи)
— Anthropic чуть впереди по доходу с API: $3.1B против $2.9B
— Почти половина API-выручки Anthropic поступает всего от двух клиентов: Cursor и GitHub
🧑💻 ChatGPT обрабатывает более 3 миллиардов сообщений в день — и рост продолжается ускоряться.
Если год назад прирост пользователей составлял 2,5× в год, то теперь он достиг 4×.
Code Claude же даёт $400M ARR — в 2 раза больше, чем всего несколько недель назад.
Сегодня почти все ассистенты по умолчанию используют Claude 4 Sonnet.
Но если GPT‑5 перехватит лидерство — и те же Cursor или Copilot перейдут к OpenAI — расклад может быстро поменяться.
@ai_machinelearning_big_data
#OpenAI@Anthropic#ml#llm#ai
🍏Apple представила SHARP - фотореалистичный 3D генератор из одного изображения
SHARP - это исследовательский проект Apple, который умеет создавать фотореалистичные новые ракурсы сцены, имея всего одну фотографию.
Нейросеть за один проход предсказывает 3D-сцены в виде гауссианов.
Полученную 3D-сцену можно:
- рендерить в реальном времени
- получать высококачественные изображения с близких ракурсов
- двигать камеру в реальных метрических координатах
Главные фишки:
- используется метрическое 3D-представление с абсолютным масштабом
- поддерживаются реальные движения камеры
- модель работает zero-shot, без дообучения на новых датасетах
Модель устанавливает новый уровень качества сразу на нескольких наборах данных:
- метрика LPIPS улучшена на 25–34%
- метрика DISTS улучшена на 21–43% по сравнению с лучшими предыдущими моделями
При этом время генерации снижено в тысячи раз.
SHARP показывает, насколько далеко продвинулись методы 3D-реконструкции и view synthesis — и как быстро такие технологии начинают работать в реальном времени, а не только в лаборатории.
▪Github: https://github.com/apple/ml-sharp
▪HF: https://huggingface.co/apple/Sharp
▪Демки: https://apple.github.io/ml-sharp/
@ai_machinelearning_big_data
#apple#llm#ai#ml
🔥Интересный кейс про ML в картографии
В статье рассказано про развитие детектора Яндекс Карт для распознавания дорожных знаков на панорамах — от бинарного классификатора до нейросетей. Сейчас детектор умеет находить почти все знаки в России. Первая же версия создавалась в 2016 году с помощью небольшого датасета и модели на классических подходах компьютерного зрения. Использовали ACFFeatures + WaldBoost с бинарными решающими деревьями.
Классические методы страдали «близорукостью» — детектили знаки только «в лоб», повороты пропускали, поэтому перешли к новой версии на свёрточных нейросетях и натренировали Faster R-CNN.
Нетривиальные архитектурные решения:
▪️Объединили все знаки ограничения скорости в один класс + дополнительная сеть для распознавания чисел на вырезанном знаке
▪️ То же с направлениями по полосам — детектор находит знак, дополнительная модель выдаёт бинарный вектор направлений
▪️ Создали отдельную модель для обработки найденных знаков многополосности. Полная техническая реализация описана в статье.
🟢Главная проблема — сбор датасета
Как обычно, всё упёрлось в данные для обучения. Терабайты фотографий улиц прогонять через асессоров — дорого и неэффективно. Выстроили такой процесс: сначала автоматически находить фотографии, где есть дорожные знаки, и только потом отправлять их на разметку асессорам.
🟢Финальные цифры:
▪️ 300 тысяч фотографий в датасете
▪️ 1,5 миллиона размеченных знаков
▪️200+ поддерживаемых классов знаков
Любопытный факт: самый частый знак в датасете — пешеходный переход.
Практический результат: всё это помогает автоматически обновлять данные в Картах, по которым сервис строит маршруты, выдаёт голосовые подсказки о том, с какой скоростью ехать и тд. В год так вносится более 200 тысяч автообновлений
⚡️Статья:https://habr.com/ru/companies/yandex/articles/946338/
@ai_machinelearning_big_data
#ai#ml
Polymathic - междисциплинарный ИИ
Ох, какая классная межуниверситетская инициатива - Polymathic🔥.
Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п.
В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков.
На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI.
#AI#ML