TGTGInsightаналитика telegramLIVE / telegram public index
← DevOps

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @DevOPSitsec · Post #2098 · 25 мар.

📌Google разработала алгоритм квантования KV-кэша без потери точности. Подразделение Research анонсировало TurboQuant, алгоритм векторного квантования, объединяющий 2 других метода - QJL и PolarQuant, который решает проблему увеличения KV-кэша при работе с длинным контекстом. TurboQuant будет представлен на ICLR 2026, PolarQuant - на AISTATS 2026. KV-кэш хранит промежуточные представления токенов, чтобы модель не пересчитывала их на каждом шаге генерации. С ростом контекста он превращается в узкое место по памяти. Обычное векторное квантование сжимает эти данные, но вносит накладные расходы: для каждого блока нужно хранить константы квантования в полной точности, а это плюс 1–2 бита на элемент, что частично обесценивает само сжатие. 🟡TurboQuant - двухэтапный пайплайн. Сначала PolarQuant: случайный поворот выравнивает геометрию векторов, после чего они переводятся из декартовых координат в полярные (радиус и угол). Распределение углов оказывается предсказуемым и сконцентрированным, поэтому нормализация и хранение дополнительных констант становятся больше не нужны. На втором этапе подключается QJL, метод на основе преобразования Джонсона-Линденштраусса, который кодирует остаточную ошибку первого этапа всего одним знаковым битом и через встроенную оценочную функцию сочетает высокоточный запрос с низкоточными сжатыми данными, корректно вычисляя attention score. Ни один из методов не требует обучения или дообучения и работает в режиме "без предварительного анализа набора данных". Алгоритмы тестили на бенчмарках для длинного контекста: LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval с моделями Gemma и Mistral. При квантовании KV-кэша до 3 бит TurboQuant показал нулевую деградацию точности на всех задачах: поиск «иголки в стоге сена», QA, генерация кода, суммаризация. Объем KV-кэша при этом сократился в 6 раз. На H100 четырехбитный TurboQuant ускорил вычисление attention-логитов до 8 раз по сравнению с 32-битными ключами. Область применения не ограничивается KV-кэшем. В экспериментах с высокоразмерным векторным поиском TurboQuant стабильно превзошел по recall методы PQ и RaBitQ несмотря на то, что те использовали крупные код-буки и подстройку под конкретный датасет. 🟡Статья 🟡Arxiv @ai_machinelearning_big_data 🎯Полезные Мл-ресурсы🚀Max #AI#ML#LLM#TurboQuant#Google

Результаты

Найдено 11,612 похожих постов

Общий глобальный поиск

Machinelearning

@ai_machinelearning_big_data · Post #9736 · 25.03.2026, 04:49

📌Google разработала алгоритм квантования KV-кэша без потери точности. Подразделение Research анонсировало TurboQuant, алгоритм векторного квантования, объединяющий 2 других метода - QJL и PolarQuant, который решает проблему увеличения KV-кэша при работе с длинным контекстом. TurboQuant будет представлен на ICLR 2026, PolarQuant - на AISTATS 2026. KV-кэш хранит промежуточные представления токенов, чтобы модель не пересчитывала их на каждом шаге генерации. С ростом контекста он превращается в узкое место по памяти. Обычное векторное квантование сжимает эти данные, но вносит накладные расходы: для каждого блока нужно хранить константы квантования в полной точности, а это плюс 1–2 бита на элемент, что частично обесценивает само сжатие. 🟡TurboQuant - двухэтапный пайплайн. Сначала PolarQuant: случайный поворот выравнивает геометрию векторов, после чего они переводятся из декартовых координат в полярные (радиус и угол). Распределение углов оказывается предсказуемым и сконцентрированным, поэтому нормализация и хранение дополнительных констант становятся больше не нужны. На втором этапе подключается QJL, метод на основе преобразования Джонсона-Линденштраусса, который кодирует остаточную ошибку первого этапа всего одним знаковым битом и через встроенную оценочную функцию сочетает высокоточный запрос с низкоточными сжатыми данными, корректно вычисляя attention score. Ни один из методов не требует обучения или дообучения и работает в режиме "без предварительного анализа набора данных". Алгоритмы тестили на бенчмарках для длинного контекста: LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval с моделями Gemma и Mistral. При квантовании KV-кэша до 3 бит TurboQuant показал нулевую деградацию точности на всех задачах: поиск «иголки в стоге сена», QA, генерация кода, суммаризация. Объем KV-кэша при этом сократился в 6 раз. На H100 четырехбитный TurboQuant ускорил вычисление attention-логитов до 8 раз по сравнению с 32-битными ключами. Область применения не ограничивается KV-кэшем. В экспериментах с высокоразмерным векторным поиском TurboQuant стабильно превзошел по recall методы PQ и RaBitQ несмотря на то, что те использовали крупные код-буки и подстройку под конкретный датасет. 🟡Статья 🟡Arxiv @ai_machinelearning_big_data 🎯Полезные Мл-ресурсы🚀Max #AI#ML#LLM#TurboQuant#Google

Machinelearning

@ai_machinelearning_big_data · Post #9222 · 10.12.2025, 17:33

⭐️Nous Research открыла исходный код Nomos 1. При размере всего 30B параметров модель набрала 87/120 на Putnam - одном из самых престижных математических конкурсов в мире. Такой результат соответствовал бы 2-му месту среди 3988 участников в 2024 году. Nomos 1 показала 87/120 и восемь идеальных решений. Для сравнения: Qwen3-30B при тех же условиях получила 24/120. Это подчёркивает, что преимущество Nomos связано прежде всего с качеством обучения и данных, а не с тестовой средой. Проверка решений проходила вслепую: их оценивал реальный участник Putnam из топ-200, получивший обезличенные ответы. Задачи решались в тех же временных рамках, что и у участников - по 3 часа на каждую часть. Система рассуждений устроена так: — сначала “workers” решают наиболее сложные задачи и сами оценивают свои решения; — затем этап финализации, ИИ объединяет ответы и выбирает итоговый вариант. ▪HF: https://huggingface.co/NousResearch/nomos-1 ▪Github: https://github.com/NousResearch/nomos @ai_machinelearning_big_data #llm#ml#ai

Hashtags

Machinelearning

@ai_machinelearning_big_data · Post #8747 · 13.10.2025, 10:49

✔️Представлен новый метод для понимания работы больших языковых моделей — SAE Boost Метод помогает увидеть на какие внутренние признаки опирается ИИ, когда формирует ответы без переобучения всей модели. В основе — дополнительный автоэнкодер, который обучается на остаточной ошибке базовой модели и вылавливает редкие, специализированные сигналы, влияющие на решение модели. Sae Boost уже протестировали на тестах по химии, документах ООН и русскоязычном контенте – метод показал значительное улучшение качества реконструкции (explained variance) и снижения перекрестной энтропии LLM (LLM cross-entropy) на специализированных доменах. @ai_machinelearning_big_data #news#ai#ml#llm

Machinelearning

@ai_machinelearning_big_data · Post #8101 · 19.07.2025, 14:55

✔️T-Pro 2.0 — LLM с гибридным режимом рассуждений Т-Банк релизнул модель с гибридным ризонингом в опенсорс. T-Pro 2.0 дообучили на основе Qwen3 32B, улучшив качество и скорость генерации на русском языке. Вместе с моделью впервые выложили инструктивный датасет. Как дообучали модель сегодня рассказали на Turbo ML конфе и выложили на хабр. ✔️Дообучение модели T-Pro 2.0 проходило в несколько этапов. На основе токенизатора Qwen3 и с помощью расширения его кириллической части более, чем в 5 раз, разработчики получили улучшенный токенизатор для мультилингвальных моделей. По итогу токенизатор оказался на 30% более эффективен для русского языка. Затем за счет плотного токенизатора на двух доменах (чатовые запросы ru-arena-hard и олимпиадные математические задачи из T-Math) ускорили инференс. Следующим шагом было дообучение на большом русскоязычном инструктивном корпусе. Далее модель дообучали на более чистом SFT-сете, сформированном из разнообразных промптов, собранных вручную, из открытых источников и переводов англоязычных наборов данных. Для формирования итогового датасета ответы на инструкции генерировались с помощью более мощных моделей, таких как DeepSeek-V3 0324 и Qwen3-235B-A22B. Это позволило обеспечить высокий уровень точности и релевантности. На стадии Preference tuning для обучения DPO сформировали набор данных с фильтрацией по длине и типу для general-инструкций и сохранением баланса доменов для reasoning-инструкций. На финальном этапе Speculative decoding в качестве драфт- модели выбрали EAGLE 1 с генерацией драфта во время инференса с помощью tree attention согласно EAGLE 2. ✔️Бенчмарки моделей Для того, чтобы оценить способности моделей к ведению диалога, следованию инструкциям и решению задач разработчики использовали LLM-as-a-judge-арены: Arena Hard Ru, Arena Hard 2 и арену WildChat Hard Ru. В последней в качестве бейзлайна использовались ответы модели o3-mini, а “судьей” для всех арен выступал DeepSeek V3 0324. Для оценки знаний о мире и общим логическим способностям моделей на русском языке использовались бенчмарки MERA, MaMuRAMu, ruMMLU, ruMMLU-Pro. Бенчмарки AIME, MATH-500, GPQA Diamond, Vikhr Math, Vikhr Physics, LiveCodeBench v4_v5 позволили оценить способности reasoning-модели к рассуждениям и решению сложных задач. Англоязычные бенчмарки были целиком локализованы на русский язык ИИ-тренерами: ruAIME, ruMATH-500, ru GPQA Diamond, ruLCB. Компания также использовала свой бенчмарк Т-Math, чтобы расширить оценку математических способностей на русском языке. ✔️Задачи, которые закрывает T-Pro 2.0 Дообучение даже продвинутых LLM позволяет управлять стоимостью инференса и скоростью генерации, дообучать важные домены (саппорта или распределение внутреннего промтинга), уменьшить количества артефактов и проблем с русским языком. Модель T-Pro 2.0 доступна по лицензии Apache 2.0, ее можно бесплатно использовать как для решения задач в промптинге, так и для дообучения на свои задачи. ▪️Hugging face:T-Pro 2.0 Датасет T-wix @ai_machinelearning_big_data #news#ai#ml#llm

The Devs

@thedevs · Post #2082 · 05.10.2023, 12:13

A Hackers' guide to language models. #video#llm#ml#ai @thedevs https://thedevs.link/nWHcWR

Machinelearning

@ai_machinelearning_big_data · Post #9205 · 09.12.2025, 08:02

⚡️«Норникель» выложил MetalGPT-1 - 32B LLM, обученную на миллионe закрытых технологических документов по металлургии и добыче. Важно не только то, что это доменная модель. Важно каким типом данных её кормили. Технологические протоколы, регламенты, НИОКР, строй- и проектная документация - это не тексты в привычном ML-смысле. Это формализованные фрагменты производственного мира: язык процессов, цепочек, ограничений, рисков. Обучая LLM на таком корпусе, компания фактически создаёт отдельный “data-reality layer”, который универсальные модели просто не видят. И в этом - главная новость. Появляется новая парадигма: не “адаптируем GPT под домен”, а строим ИИ вокруг индустриального мира как первичного источника данных. MetalGPT-1 - всего лишь первый пример. Дальше будут модели для химтеха, логистики, энергетики, строительства. У каждой отрасли — собственный язык, собственный датасет, собственная реальность. И это значит, что domain-first LLM перестают быть экспериментом. Они становятся инфраструктурой. https://huggingface.co/nn-tech #llm#ml

Hashtags

Parallel Experiments

@LinghaoCh · Post #924 · 11.03.2025, 19:22

前段时间准备 ML Interview (with a focus on LLMs),浏览了不少学习资源,这里分享一些: CMU 11-711 Advanced NLP Language Modeling 综述。 The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture 比较好的一篇 Transformer 综述。 3Blue1Brown: Attention in transformers, step-by-step 解释 Attention 最好的视频,没有之一。 Hugging Face: Mixture of Experts Explained Hugging Face: RLHF Hugging Face: Introduction to Deep Reinforcement Learning Hugging Face: Multimodal Models HF 这几个资源很适合快速查漏补缺相关的话题。 Lilian Weng: Agents 依然是最好的 Agents 综述之一。 Understanding Reasoning LLMs 一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。 Designing Machine Learning Systems 笔记 by @tms_ur_way 适合快速查漏补缺 ML 实践中的要点。 Stable Diffusion Explained From Scratch 关于 Diffusion 基本原理的解释。 除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。 - Andrej Karpathy 的 YouTube 视频 - Lilian Weng 的博客 - Chip Huyen 的博客 这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml#llm

Hashtags

MW public channel

@mw_public_channel · Post #818 · 11.03.2025, 22:31

前段时间准备 ML Interview (with a focus on LLMs),浏览了不少学习资源,这里分享一些: CMU 11-711 Advanced NLP Language Modeling 综述。 The Transformer Blueprint: A Holistic Guide to the Transformer Neural Network Architecture 比较好的一篇 Transformer 综述。 3Blue1Brown: Attention in transformers, step-by-step 解释 Attention 最好的视频,没有之一。 Hugging Face: Mixture of Experts Explained Hugging Face: RLHF Hugging Face: Introduction to Deep Reinforcement Learning Hugging Face: Multimodal Models HF 这几个资源很适合快速查漏补缺相关的话题。 Lilian Weng: Agents 依然是最好的 Agents 综述之一。 Understanding Reasoning LLMs 一些 post-training 的细节,侧重分析了 DeepSeek R1 和 R1 Zero。 Designing Machine Learning Systems 笔记 by @tms_ur_way 适合快速查漏补缺 ML 实践中的要点。 Stable Diffusion Explained From Scratch 关于 Diffusion 基本原理的解释。 除此之外以下这几位的内容都很不错,可以针对话题有选择性地摄入。 - Andrej Karpathy 的 YouTube 视频 - Lilian Weng 的博客 - Chip Huyen 的博客 这里推荐的基本都比较入门 / high level,更多是为了查漏补缺。要深度挖掘具体话题还是得去看进一步的资源和论文等。 #ml#llm

Hashtags

Machinelearning

@ai_machinelearning_big_data · Post #8210 · 05.08.2025, 14:00

📈 OpenAI и Anthropic показывают взрывной рост прибыли в 2025. — OpenAI удвоили ARR* за полгода: $6B → $12B — Anthropic выросли в 5 раз за 7 месяцев: $1B → $5B *ARR (Annual Recurring Revenue) — это годовой повторяющийся доход, один из ключевых финансовых показателей для компаний, особенно в сфере подписок (например, SaaS). 🧻 Интересное распределение выручки: — OpenAI лидирует в подписках (частные и корпоративные пользователи) — Anthropic чуть впереди по доходу с API: $3.1B против $2.9B — Почти половина API-выручки Anthropic поступает всего от двух клиентов: Cursor и GitHub 🧑‍💻 ChatGPT обрабатывает более 3 миллиардов сообщений в день — и рост продолжается ускоряться. Если год назад прирост пользователей составлял 2,5× в год, то теперь он достиг 4×. Code Claude же даёт $400M ARR — в 2 раза больше, чем всего несколько недель назад. Сегодня почти все ассистенты по умолчанию используют Claude 4 Sonnet. Но если GPT‑5 перехватит лидерство — и те же Cursor или Copilot перейдут к OpenAI — расклад может быстро поменяться. @ai_machinelearning_big_data #OpenAI@Anthropic#ml#llm#ai

Machinelearning

@ai_machinelearning_big_data · Post #9256 · 15.12.2025, 18:47

🍏Apple представила SHARP - фотореалистичный 3D генератор из одного изображения SHARP - это исследовательский проект Apple, который умеет создавать фотореалистичные новые ракурсы сцены, имея всего одну фотографию. Нейросеть за один проход предсказывает 3D-сцены в виде гауссианов. Полученную 3D-сцену можно: - рендерить в реальном времени - получать высококачественные изображения с близких ракурсов - двигать камеру в реальных метрических координатах Главные фишки: - используется метрическое 3D-представление с абсолютным масштабом - поддерживаются реальные движения камеры - модель работает zero-shot, без дообучения на новых датасетах Модель устанавливает новый уровень качества сразу на нескольких наборах данных: - метрика LPIPS улучшена на 25–34% - метрика DISTS улучшена на 21–43% по сравнению с лучшими предыдущими моделями При этом время генерации снижено в тысячи раз. SHARP показывает, насколько далеко продвинулись методы 3D-реконструкции и view synthesis — и как быстро такие технологии начинают работать в реальном времени, а не только в лаборатории. ▪Github: https://github.com/apple/ml-sharp ▪HF: https://huggingface.co/apple/Sharp ▪Демки: https://apple.github.io/ml-sharp/ @ai_machinelearning_big_data #apple#llm#ai#ml

Machinelearning

@ai_machinelearning_big_data · Post #8663 · 01.10.2025, 10:04

🔥Интересный кейс про ML в картографии В статье рассказано про развитие детектора Яндекс Карт для распознавания дорожных знаков на панорамах — от бинарного классификатора до нейросетей. Сейчас детектор умеет находить почти все знаки в России. Первая же версия создавалась в 2016 году с помощью небольшого датасета и модели на классических подходах компьютерного зрения. Использовали ACFFeatures + WaldBoost с бинарными решающими деревьями. Классические методы страдали «близорукостью» — детектили знаки только «в лоб», повороты пропускали, поэтому перешли к новой версии на свёрточных нейросетях и натренировали Faster R-CNN. Нетривиальные архитектурные решения: ▪️Объединили все знаки ограничения скорости в один класс + дополнительная сеть для распознавания чисел на вырезанном знаке ▪️ То же с направлениями по полосам — детектор находит знак, дополнительная модель выдаёт бинарный вектор направлений ▪️ Создали отдельную модель для обработки найденных знаков многополосности. Полная техническая реализация описана в статье. 🟢Главная проблема — сбор датасета Как обычно, всё упёрлось в данные для обучения. Терабайты фотографий улиц прогонять через асессоров — дорого и неэффективно. Выстроили такой процесс: сначала автоматически находить фотографии, где есть дорожные знаки, и только потом отправлять их на разметку асессорам. 🟢Финальные цифры: ▪️ 300 тысяч фотографий в датасете ▪️ 1,5 миллиона размеченных знаков ▪️200+ поддерживаемых классов знаков Любопытный факт: самый частый знак в датасете — пешеходный переход. Практический результат: всё это помогает автоматически обновлять данные в Картах, по которым сервис строит маршруты, выдаёт голосовые подсказки о том, с какой скоростью ехать и тд. В год так вносится более 200 тысяч автообновлений ⚡️Статья:https://habr.com/ru/companies/yandex/articles/946338/ @ai_machinelearning_big_data #ai#ml

Hashtags

Earth&Climate Tech

@earth_climate_tech · Post #401 · 19.10.2023, 16:00

​​Polymathic - междисциплинарный ИИ Ох, какая классная межуниверситетская инициатива - Polymathic🔥. Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п. В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков. На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI. #AI#ML

Hashtags

123•••50•••100•••150•••200•••250•••300•••350•••400•••450•••500•••550•••600•••650•••700•••750•••800•••850•••900•••950•••967968
НазадСтр. 1 из 968Вперёд