TGINSIGHT CHAT
Machinelearning
@ai_machinelearning_big_data
ТехнологииПогружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Последние посты
Тег: #deepseek · 13 постов
Архитектура распределённого инференса для долгоживущих LLM-сессий Эксплуатация современных агентских LLM уже не про «поднять контейнер на GPU и прикрутить балансер». Чтобы экономика сходилась и железо утилизировалось эффективно, нужно учитывать реальный паттерн нагрузки: долгие сессии, многошаговые диалоги, большие контексты. Yandex AI Studio недавно выкатила обновление, в котором открыла доступ к стабильному инференсу DeepSeek V3.2. Поговорим про сам инференс и другие обновления – что там под капотом? 🟡Ключевые изменения — Prefill / Decode Split. Prefill-ноды ускоряют прогон длинных контекстов (TTFT↓), decode-ноды стабилизируют генерацию и поддерживают низкий TBT. — Иерархия KV-кэшей – GPU → CPU RAM → распределённый слой. — Переиспользование KV-кешей. KV-кэши передаются между серверами прямо во время обработки запроса, в реальном времени — фактически гигабайты данных, которые нужно доставлять между GPU за очень короткое время. — Cache-aware балансировка. Маршрутизирует запросы с учётом расположения кэшей в кластере, чтобы максимизировать Cache Hit Rate в многошаговых сессиях. 🟡Безопасность и тарификация Появились управляемые правила модерации. Можно контролировать допустимость запросов и ответов моделей на основе политики безопасности, категорий контента и созданных словарей. Добавили возможность по запросу подключать выделенный сетевой канал и частные эндпоинты для работы с моделями без выхода в публичный интернет. Добавлены два новых типа токенов: • токены инструментов — нововведение от Яндекса. Токены срабатывают при вызове встроенных тулов (File Search, Web Search, MCP, Code Interpreter). Стоят дешевле обычных входящих / исходящих; • токены кеширования — уже отраслевой стандарт за рубежом, который только приходит на российский рынок. Часть контекста повторно используется при повторении, модель отрабатывает побыстрее, а денег тратит поменьше. 🟡Что еще рассказывают Стек для оптимизации инференса: • Dynamo как оркестрация/балансировка, • MoonCake как распределённый KV-store, • SGLang как Inference Engine. Законтрибьютили 20+ патчей в опенсорс, чтобы довести решение до эксплуатационного качества. @ai_machinelearning_big_data #AI#ML#LLM#inference#DeepSeek
Hashtags
🐋DeepSeek выпустили DeepSeek-OCR 2 - новое поколение OCR с SOTA качеством DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA. Ключевая новинка - DeepEncoder V2. В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек: - Сначала формируется глобальное понимание изображения - Затем модель определяет логический порядок чтения — что важно первым, что дальше Что это даёт на практике 📄 Лучше работает со сложными макетами документов 📊 Корректно читает таблицы 🧾 Связывает подписи и значения 📰 Понимает колонки и структурированный текст 🔀 Надёжнее обрабатывает смесь текста и визуальной структуры По качеству - Обходит Gemini 3 Pro на ряде бенчмарков - Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR И это при размере модели всего 3B параметров. Можно запускать и дообучать Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду. 🔗Guide: https://unsloth.ai/docs/models/deepseek-ocr-2 🔗Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2 🔗Github: https://github.com/deepseek-ai/DeepSeek-OCR-2/tree/main 🔗Paper: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf @ai_machinelearning_big_data #DeepSeek#ocr#opensource
Hashtags
⚡️DeepSeek Engram: условная память LLM через поиск. DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером, который доказывает, что новое — это хорошо и очень хитро забытое старое. Пока все пытаются запихнуть в LLM как можно больше слоев и параметров, DeepSeek задались вопросом: зачем тратить дорогой компьют на запоминание фактов, если их можно просто подсмотреть? Знакомьтесь: 🟡Engram — модуль, который возвращает нас к дедам с N-грамами. DeepSeek предлагает разделить "думалку" (MoE-слои) и "хранилище знаний" (Engram): 🟢Hashed N-grams: модуль смотрит на входящий текст и нарезает его на N-грамы (последовательности токенов). 🟢O(1) Lookup: система делает мгновенный запрос в гигантскую хэш-таблицу эмбеддингов - это чисто статический поиск. 🟢Context-Aware Gating: самый сок. Модель не просто слепо берет данные из "хранилища знаний" - специальный гейтинг-механизм решает: "Нам сейчас нужен факт из памяти или будем думать сами?". Если найденный N-грам релевантен контексту, он подмешивается в скрытое состояние. 🟢Tokenizer Compression: чтобы хранилище знаний не лопнуло от мусора, похожие токены в нем схлопывают в один ID, например, "Apple" и "apple". 🟡Баланс распределения ресурсов. Чтобы правильно поделить бюджет параметров между MoE и Engram посчитали сценарии масштабирования. График лосса от соотношения этих частей выглядит как буква U: 🟠Перекос в MoE (100% вычислений): модель тратит дорогие слои внимания на запоминание статики. Это неэффективно, лосс высокий. 🟠Перекос в Память (0% вычислений): модель превращается в гигантскую википедию. Она помнит факты, но у нее напрочь атрофируется ризонинг. Лосс тоже высокий. 🟢Золотая середина (дно U-кривой): 80% MoE и ~20% Engram. 🟡Тесты и результаты. DeepSeek обучили модель Engram-27B и сравнили ее с классической MoE-27B при одинаковом бюджете параметров и FLOPs. Итоги: Общее качество подросло: MMLU +3.4 пункта, HumanEval (код) +3.0. На длинном контексте - разнос. В тесте на поиск иголки (NIAH) точность выросла с 84.2 до 97.0. Модель разгрузила слои внимания от запоминания локальных паттернов, и оно сфокусировалось на глобальном контексте. Модель быстрее сходится. Engram берет на себя рутину в ранних слоях, тем самым позволяя модели сразу учиться сложным вещам. 🟡Архитектурный нюанс. Таблица эмбеддингов для Engram может быть запредельно огромной (в пейпере разгоняли до 100B параметров) и, очевидно, в VRAM это не влезает. Решили так: раз ID токенов известен до прогона слоя, то эти данные можно хранить в RAM и асинхронно подтягивать. В реале, оверхед от этой механики показал меньше 3%., т.е. мы получаем модель, которая знает больше, чем влезает в GPU, используя оперативку сервера. 🟡DeepSeek фактически легализовала подобие шпаргалок для LLM. Вместо того чтобы заставлять модель учить все наизусть, ей дают гигантский справочник. Теоретически, это открывает путь к прекрасному ИИ светлого будущего, который может иметь условно-бесконечную память, ограниченную только объемом оперативки, а не VRAM. Похоже, в V4 мы увидим как эта схема работает, ведь инсайдеры обещают у нее запредельные скилы. 🟡Техотчет 🖥Github @ai_machinelearning_big_data #AI#ML#LLM#Engram#Deepseek
🚨🚨 DeepSeek в первый день года показала реально важную штуку: улучшение трансформеров. Китайцы предложили способ сделать shortcut-путь в трансформерах гибче, но при этом сохранить стабильность даже у очень больших моделей. В обычном трансформере каждый блок что-то считает, а потом просто добавляет результат к исходному сигналу. Это помогает информации проходить через много слоёв, не теряясь. Hyper-Connections меняют shortcut-путь. Был один поток, а стало несколько. Перед каждым шагом модель выбирает, какие потоки подать на вычисления. Во время шага часть сигнала идёт «в обход», чтобы ничего не потерять. После всё снова аккуратно объединяется. То есть shortcut превращается из простого «input + output» в умный маршрутизатор сигналов. Проблема в том, что без ограничений такие смешивания могут усиливать сигнал слишком сильно или, наоборот, гасить его и большие модели начинают вести себя нестабильно. mHC решает это так: потоки остаются, но каждое смешивание работает как аккуратное усреднение. Сигнал не может «взорваться» или исчезнуть - он остаётся под контролем. Что это даёт на практике: - модели остаются стабильными даже на масштабе 27B, дают лучшее качество и не страдают от скачков лосса. Там, где обычные Hyper-Connections раздували сигнал до 3000×, mHC держат его примерно на уровне 1.6×. Если коротко: был один shortcut,. сделали несколько, но заставили их смешиваться безопасно. И трансформеры стали гибче и стабильнее. https://arxiv.org/abs/2512.24880 @ai_machinelearning_big_data #AI#DeepSeek#MachineLearning#NeuralNetworks#Research
🚀 Релиз DeepSeek-V3.2 и DeepSeek-V3.2-Speciale - модели нового поколения, созданные в первую очередь для reasoning и работы в агентных системах. Что нового: - DeepSeek-V3.2 - официальный преемник V3.2-Exp. Доступна в приложении, на сайте и через API. - DeepSeek-V3.2-Speciale - улучшенная версия с акцентом на продвинутое многошаговое рассуждение. Пока что работает только через API. Обе модели делают упор на глубокие цепочки рассуждений и поведение, нацеленное на агентные сценарии: планирование, решение задач, сложные выводы и работу со структурированными данными. 🏆 Производительность • V3.2 - баланс скорости и качества, уровень примерно GPT-5 • V3.2-Speciale - топовый reasoning, конкурирует с Gemini-3.0-Pro. • Speciale - лидер на IMO, CMO, ICPC. 🤖 Новый подход к обучению агентов • Синтезированы большие тренировочные данные для 1800+ сред и 85k сложных инструкций. • V3.2 - первая модель DeepSeek, у которой мышление встроено прямо в tool-use. 💻 API • V3.2 использует тот же интерфейс, что V3.2-Exp. • Speciale доступна через временный endpoint, работать будет до 15 декабря 2025. 📦 DeepSeek-V3.2 Model:https://huggingface.co/deepseek-ai/DeepSeek-V3.2 📦 DeepSeek-V3.2-Speciale Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale 📄 Tech report:https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf @ai_machinelearning_big_data #deepseek, #deepseekv3, #ai, #нейросети, #искусственныйинтеллект, #llm
🚀 DeepSeek выпустили DeepSeek Math V2 - мощную модель для самопроверяемых математических рассуждений. Модель способна не просто решать задачи, а самостоятельно проверять корректность своих доказательств. Это шаг от генерации ответа к глубокому, надёжному и логически выверенному выводу. 📊 Результаты: - уровень золотой медали на IMO 2025 - почти идеальные результаты на CMO 2024 - 118 из 120 баллов на Putnam 2024 🔍 Главное отличие от предыдущих моделей: ИИ учится *мыслить строго*, пошагово формируя доказательство и сам проверяет логическую связность каждого шага. Подходит как для автоматизированного решения задач, так и для обучения, генерации разборов и проверки решений. https://huggingface.co/deepseek-ai/DeepSeek-Math-V2 @ai_machinelearning_big_data #AI#DeepSeek#Math#LLM#MachineLearning#OpenSource #
💡DeepSeek выложили новый open-source проект — LPLB. Это экспериментальный балансировщик нагрузки для моделей Mixture-of-Experts (MoE). В репозитории описано, как система: • динамически перераспределяет экспертов, опираясь на статистику нагрузки; • создаёт реплики с учётом топологии кластера; • решает оптимальное распределение токенов по экспертам через LP-решатель, работающий прямо на GPU (cuSolverDx + cuBLASDx); • использует метрики загрузки, полученные вручную, через torch.distributed или через буферы Deep-EP. Гайд показывает, как может выглядеть умный и точный балансировщик для больших MoE-архитектур. GitHub: https://github.com/deepseek-ai/LPLB ai_machinelearning_big_data #DeepSeek#LPLB#MoE#AIInfrastructure#OpenSource
📊 GenAI Traffic - статистика по ИИ трафику. Свежие данные показывают, как меняется расстановка сил среди генеративных ИИ: - ChatGPT продолжает терять долю рынка. - Perplexity впервые перешагнул порог 2%. 🗓️Год назад: ChatGPT — 87.1% Gemini — 6.4% Perplexity — 1.7% Claude — 1.7% Copilot — 1.1% 🗓️6 месяцев назад: ChatGPT — 78.8% DeepSeek — 6.8% Gemini — 5.5% Grok — 3.1% Perplexity — 1.5% Claude — 1.3% Copilot — 1.3% 🗓️3 месяца назад: ChatGPT — 78.3% Gemini — 8.7% DeepSeek — 4.5% Grok — 2.6% Perplexity — 1.6% Claude — 1.5% Copilot — 1.2% 🗓️Месяц назад: ChatGPT — 76.4% Gemini — 10.8% DeepSeek — 4.0% Grok — 2.2% Perplexity — 2.0% Claude — 1.9% Copilot — 1.2% 🗓️Сегодня: ChatGPT — 74.1% Gemini — 12.9% DeepSeek — 3.7% Perplexity — 2.4% Grok — 2.0% Claude — 2.0% Copilot — 1.2% 📈Тенденция очевидна: ChatGPT теряет медленно, но верно трафик, рынок становится более сбалансированным, а Gemini и Perplexity показывают стабильный рост интереса пользователей. С выходом Gemini 3.0 рост, Google может ещё больше улучшить свои позиции. @ai_machinelearning_big_data #AI#GenAI#Analytics#ChatGPT#Gemini#Perplexity#Claude#DeepSeek#Copilot
📄 DeepSeek-OCR - модель для распознавания текста 🔍 DeepSeek выпустили мощную OCR-модель, способную преобразовывать изображения документов прямо в Markdown или текст. Что умеет: - Распознаёт текст на изображениях и в PDF - Работает с документами, таблицами и сложными макетами - Поддерживает разные режимы: Tiny, Small, Base, Large - Оптимизирована под GPU (PyTorch + CUDA 11.8) - MIT-лицензия — можно свободно использовать и модифицировать DeepSeek-OCR достигает высокой точности и эффективности за счёт компрессии визуальных токенов. На Omnidocbench - лучшая точность при минимуме визуальных токенов, превосходит другие OCR-модели по эффективности и скорости. 🟠HF: https://huggingface.co/deepseek-ai/DeepSeek-OCR 🟠Github: https://github.com/deepseek-ai/DeepSeek-OCR 🟠Paper: https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf @ai_machinelearning_big_data #ocr#DeepSeek
🚀 DeepSeek-V3.2-Exp - вышла новая экспериментальная версия ⚡ Главное: - Основана на V3.1-Terminus - Новый механизм Sparse Attention (DSA) → быстрее и дешевле работа с длинными контекстами - Качество почти без потерь, производительность как у V3.1 - API подешевел более чем на 50% 📊 V3.1 пока ещё будет доступна до 15 октября 2025. 💰 Цены: - Input (cache hit): $0.07 → $0.028 (−60%) - Input (cache miss): $0.56 → $0.28 (−50%) - Output: $1.68 → $0.42 (−75%) 🔗 Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp) 🔗 Tech Report:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf) 🔗Github: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf @ai_machinelearning_big_data #DeepSeek#AI#V32#SparseAttention#LLM
🐳 Обновленная DeepSeek-V3.1-Terminus Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией. Языковая консистентность -китайцы значительно улучшили вывод модель - меньше случайных иероглифов и мешанины CN/EN. Ряд Агентных апгрейдов рузльтаты на Code Agent и Search Agent стали заметно сильнее. Доступна в приложении и в веб-версии и через API. 🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus @ai_machinelearning_big_data #DeepSeek#opensource#llm
Hashtags
🐋 DeepSeek-V3.1 теперь можно запускать локально Оригинальная модель весила 715GB, но её удалось уменьшить до 170GBRAM (−80%) с помощью новой техники квантовки Dynamic 1-bit GGUF. ⚡ Огромная экономия памяти 👉 Подробный гайд: https://docs.unsloth.ai/basics/deepseek-v3.1 👉 GGUF-модель: https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF Теперь топовую DeepSeek реально запустить даже на локальной машине, а не только в дата-центре 🚀 @ai_machinelearning_big_data #DeepSeek#GGUF