TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @ai_machinelearning_big_data · Post #9624 · 5 мар.

Архитектура распределённого инференса для долгоживущих LLM-сессий Эксплуатация современных агентских LLM уже не про «поднять контейнер на GPU и прикрутить балансер». Чтобы экономика сходилась и железо утилизировалось эффективно, нужно учитывать реальный паттерн нагрузки: долгие сессии, многошаговые диалоги, большие контексты. Yandex AI Studio недавно выкатила обновление, в котором открыла доступ к стабильному инференсу DeepSeek V3.2. Поговорим про сам инференс и другие обновления – что там под капотом? 🟡Ключевые изменения — Prefill / Decode Split. Prefill-ноды ускоряют прогон длинных контекстов (TTFT↓), decode-ноды стабилизируют генерацию и поддерживают низкий TBT. — Иерархия KV-кэшей – GPU → CPU RAM → распределённый слой. — Переиспользование KV-кешей. KV-кэши передаются между серверами прямо во время обработки запроса, в реальном времени — фактически гигабайты данных, которые нужно доставлять между GPU за очень короткое время. — Cache-aware балансировка. Маршрутизирует запросы с учётом расположения кэшей в кластере, чтобы максимизировать Cache Hit Rate в многошаговых сессиях. 🟡Безопасность и тарификация Появились управляемые правила модерации. Можно контролировать допустимость запросов и ответов моделей на основе политики безопасности, категорий контента и созданных словарей. Добавили возможность по запросу подключать выделенный сетевой канал и частные эндпоинты для работы с моделями без выхода в публичный интернет. Добавлены два новых типа токенов: • токены инструментов — нововведение от Яндекса. Токены срабатывают при вызове встроенных тулов (File Search, Web Search, MCP, Code Interpreter). Стоят дешевле обычных входящих / исходящих; • токены кеширования — уже отраслевой стандарт за рубежом, который только приходит на российский рынок. Часть контекста повторно используется при повторении, модель отрабатывает побыстрее, а денег тратит поменьше. 🟡Что еще рассказывают Стек для оптимизации инференса: • Dynamo как оркестрация/балансировка, • MoonCake как распределённый KV-store, • SGLang как Inference Engine. Законтрибьютили 20+ патчей в опенсорс, чтобы довести решение до эксплуатационного качества. @ai_machinelearning_big_data #AI#ML#LLM#inference#DeepSeek

Результаты

Найдено 10 похожих постов

Компания Маска xAI представила новую ИИ-модель Grok 3, которая превосходит #DeepSeek R1 и на уровне o1-pro от OpenAI за $200/месяц Всего за 1 год работы xAI удалось создать модель, конкурирующую с лидерами индустрии. Особенно впечатляет скорость развития и внедрение инновационных подходов, таких как режим Thinking. При этом команда продолжает активную работу над улучшением модели, обещая регулярные обновления. Сравнение с конкурентами: - Сопоставим по возможностям с o1-pro от OpenAI ($200/месяц) - Превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking - В некоторых задачах превосходит GPT-4 - Даже мини-версия (Grok-3 mini) показывает конкурентные результаты Технические характеристики: - обучалась на 200,000 GPU - 10-кратное увеличение объема тренировки по сравнению с Grok 2 - Рекордный показатель ELO 1400 в Chatbot Arena - Лидирующие позиции в тестах: * AIME'24 (математика): 93% * GPQA (наука): 85% * LCB (программирование): 79% Стратегия Open Source от xAI: Компания планирует открывать код предыдущих версий после стабильного релиза новых. После полного релиза Grok 3 обещают открыть исходный код Grok 2. Ожидаемые сроки: в течение нескольких месяцев. Это интересно в контексте того, что сейчас в open-source доминируют Meta с Llama (запрещенная организация в РФ) и Mistral. Появление кода Grok может существенно изменить ландшафт открытых ИИ-моделей. Уникальные особенности: - Способность к нестандартному мышлению (попытка решить гипотезу Римана) - Эффективная работа с пространственными задачами - Улучшенные способности рассуждения при включенном режиме Thinking - Быстрая обработка и анализ научных статей. Ключевые особенности: 1. Thinking Mode: - Уникальная способность пошагового решения сложных задач - Успешно справляется с задачами, где другие модели дают сбой - Исправляет типичные ошибки базовой модели - Особенно эффективен в математических вычислениях 2. DeepSearch: - Продвинутая система поиска с перепроверкой источников - Успешно отвечает на вопросы о текущих событиях - Уровень сравним с Perplexity DeepResearch - Имеет некоторые ограничения в работе с Twitter/X - Иногда может создавать несуществующие URL Доступность: - Веб-версия на grok.com - Разрабатывается приложение SuperGrok - Планируется релиз голосового интерфейса - После стабильного релиза Grok 3 обещают открыть исходный код Grok 2 Учитывая темпы развития и уже достигнутые результаты, Grok 3 имеет все шансы стать одним из ключевых игроков на рынке ИИ. Однако, как отмечает Карпаты, необходимо дождаться более полных оценок в течение следующих недель для окончательных выводов.

Hashtags

Стартап SSI Ильи Суцкевера оценивают уже в $20млрд., идут переговоры о новых инвестициях Все это происходит на фоне того, как китайский #DeepSeek начал ломать бизнес-модели американских компаний с закрытыми ИИ-моделями. В ноябре 2024 года Илья заявил, что эра простого масштабирования ИИ закончилась. В декабре 2024 года Илья рассказал о будущем ИИ: - Появится настоящая самостоятельность в действиях - Системы научатся по-настоящему рассуждать - Их поведение станет менее предсказуемым (как у сильных шахматных программ, которые удивляют даже гроссмейстеров) - Они будут лучше учиться на небольшом количестве примеров - Разовьют понимание себя. SSI пока не генерирует выручку, но привлекает значительные инвестиции благодаря своей амбициозной миссии - разработке "безопасного суперинтеллекта", который будет превосходить человеческий интеллект, оставаясь при этом aligned (согласованным) с интересами человечества. SSI планирует выпустить свой продукт ~к 2028 году. В последний раз в сентябре 2024 стартап привлек $1 млрд при оценке в $5 млрд.

Hashtags

ForgetMe | Нейросети

@forgetmeai · Post #5668 · 01.12.2025, 12:00

✴️DeepSeek наконец проснулись и выпустили новые модели Выкатили аж две штуки: обычный V3.2 с возможностью включить/выключить мышление и V3.2 Speciale, у которого обещают лучшие ответы и тяжелый ризонинг. По бенчмаркам не плохо, подробнее: DeepSeek-V3.2 — официальный преемник V3.2-Exp, доступен в App/Web/API и позиционируется как «ежедневный драйвер» с сбалансированным инференсом и длиной ответов. DeepSeek-V3.2-Speciale — максимум рассуждений и упор на сложные задачи; сейчас только API и без tool-use, чтобы сообщество смогло нормально оценить и воспроизвести результаты. Speciale заявляет «золотой уровень» на математических и алгоритмических олимпиадах (IMO, CMO, ICPC WF, IOI-2025), а V3.2 — интегрирует «thinking» прямо в tool-use и поддерживает инструменты как в thinking-, так и в non-thinking-режимах. Важно: Speciale расходует больше токенов, но выигрывает там, где нужны глубокие цепочки рассуждений. Ссылки на модели:DeepSeek-V3.2 (Hugging Face) • DeepSeek-V3.2-Speciale (Hugging Face) 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#deepseek

ForgetMe | Нейросети

@forgetmeai · Post #5324 · 29.09.2025, 10:43

✴️DeepSeek-V3.2-Exp: новая экспериментальная модель с DSA и снижением цен на API на 50%+ DeepSeek-V3.2-Exp построена на базе V3.1-Terminus и впервые внедряет DeepSeek Sparse Attention (DSA) — разрежённую схему внимания, которая ускоряет обучение и инференс на длинном контексте при минимальном влиянии на качество. Модель уже доступна в приложении, на веб-версии и по API, а стоимость API снижена более чем на 50% — действует сразу. По бенчмаркам V3.2-Exp держится на уровне V3.1-Terminus. Для корректного сравнения V3.1-Terminus остаётся во временном API до 15 октября 2025, 15:59 (UTC) — подробности в руководстве по A/B-сравнению. Обратную связь по DSA можно оставить через форму. Доступны материалы опенсорс-релиза: модель на Hugging Face и технический отчёт (PDF). 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#deepseek

ForgetMe | Нейросети

@forgetmeai · Post #5272 · 22.09.2025, 14:10

✴️DeepSeek-V3.1-Terminus: стабильнее, чище язык, умнее агенты Обновление DeepSeek-V3.1 → V3.1-Terminus доводит сильные стороны прошлой версии и закрывает самые частые отзывы пользователей: меньше языковой «каши» и больше надёжности на бенчмарках. Что подтянули: 🟡Языковая консистентность. Снизили перемешивание CN/EN, исчезли случайные символы — ответы выглядят аккуратнее. 🟡Агенты. Усилили Code Agent и Search Agent — более точные правки кода и устойчивый поиск. 🟡Стабильность. На тестах выше надёжность и повторяемость ответов по сравнению с V3.1. Модель уже доступна в приложении, в вебе и через API. Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #новости#нейросети#deepseek

ForgetMe | Нейросети

@forgetmeai · Post #5149 · 04.09.2025, 15:30

✴️Bloomberg: DeepSeek готовит версию с «обучением на инструментах» По данным Bloomberg, компания DeepSeek готовит к скорому релизу модель, сфокусированную на tool use: вызовы внешних API, поиск в сети, запуск и проверка кода — всё как часть многошаговых agentic-сценариев. Подробности и точные сроки не раскрыты, но акцент на «инструментах» должен дать лучшее планирование шагов, более надёжные действия и рост пользы в реальных задачах — от исследований до автоматизации рабочих процессов. 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#deepseek

AI для продакта 🧠🚀

@aiforproduct · Post #574 · 29.01.2025, 11:34

☄️Сравнение ChatGPT-o1, DeepSeek и Qwen2.5-Max Провели эксперимент с тремя нейросетями - ChatGPT-o1, китайскими DeepSeek и Qwen2.5-Max. Дали им одинаковую задачу с неработающим кодом таблицы. Справились все по-разному ➡️DeepSeek удивил своим подходом – он меньше минуты выстраивал логическую цепочку рассуждений, показывая, как анализирует проблему и почему выбирает те или иные решения. Это выглядело необычно и позволило заглянуть в "процесс мышления" нейросети. После анализа он предложил конкретные блоки кода для замены. Результат получился неоднозначный: часть проблем решилась, но полностью код не исправил проблему. При повторном обращении со скринами ошибок DeepSeek сообщил о перегрузке серверов и попросил продолжить в новом чате позже. ➡️ChatGPT-o1 пошел похожим путем в начале – его первое решение тоже исправило проблему частично. Но в отличие от китайского коллеги, он смог продолжить работу после получения скринов с ошибками. Потребовалось 5 итераций, и в итоге код заработал полностью. ➡️Qwen2.5-Max. У этой модели сразу обнаружились серьезные ограничения: нельзя загружать изображения, а размер сообщения ограничен 10 000 знаками. Наш код в 50 тыс. знаков просто не поместился целиком. Несмотря на предупреждение в промпте о том, что код будет отправлен частями, Qwen2.5-Max не стал дожидаться полной картины и начал исправлять код, не видя всех функций. Результат предсказуем – решение не заработало. Технические особенности • DeepSeek: без VPN, бесплатно. Принимает и Python-файлы, и скрины ошибок одновременно с описанием задачи. Ссылки для телефона: iOS, Android • ChatGPT-o1: VPN, платно. Требуется копировать код в текст сообщения вместе со скринами • Qwen2.5-Max: без VPN. Нет поддержки изображений, жесткое ограничение на размер сообщения 🔴Думаем, что говорить о полной замене ChatGPT пока еще преждевременно. Китайские аналоги отлично себя показывают с небольшими задачами, за работу с текстами поставили пять баллов, а вот с кодом немного подкачали, отдавать серьезные задачи целиком рановато. Но безусловный их плюс - доступность из РФ. #ИИ#AI#Нейросети#DeepSeek#Qwen#ChatGPT ——— #Инструменты#LLM ✍️Подписывайтесь: @aiforproduct

🚀 DeepSeek-V3.1: Шаг в эпоху агентов! Команда DeepSeek выкатила мощнейшее обновление своей и так уже нашей любимой модели — DeepSeek-V3.1! Это именно тот шаг в эпоху AI-агентов, которого мы ждали. Как я и говорил ранее — это один из самых недооценённых ассистентов на рынке, а теперь он ещё и умнее! Главная фишка — гибридный режим Think & Non-Think: одна модель может быстро отвечать на простые вопросы или глубоко «размышлять» над сложными, идеально планируя многошаговые задачи. Невероятно полезно для автоматизации, анализа данных и работы с кодом. Для разработчиков — просто рай: поддержка 128K контекста, совместимость с Anthropic API и, что я особенно ценю, — открытые веса на Hugging Face. API стал ещё удобнее. Это не просто апдейт, а реальный прорыв. Я рад, что мои дифирамбы насчёт фундаментальной мощности и агентских скиллов DeepSeek продолжают подтверждаться. Будущее ИИ за такими проектами! Куда бежать? ➡️Скорее пробуйте: www.deepseek.com И надеюсь, адептов DeepSeek станет чуть больше... #DeepSeek#ИИ#Нейросети https://t.me/semasci

Сумма технологий

@sum_tech · Post #164 · 29.01.2025, 02:39

DeepSeek R1 теперь можно запустить на относительно доступном оборудовании: революция в мире нейросетей Исследователи из компании Unsloth, специализирующейся на обучении и файнтюнинге языковых моделей, совершили прорыв в области оптимизации нейронных сетей. Им удалось сжать языковую модель DeepSeek R1 на 80% от её оригинального размера, что открывает новые возможности для использования мощных ИИ-решений на более доступном оборудовании. Теперь модель занимает всего 131 ГБ вместо первоначальных 720 ГБ, что делает её доступной для запуска даже на относительно слабых устройствах. При этом производительность модели остаётся на достаточно высоком уровне, что делает этот подход особенно ценным. Ключевым инструментом, позволившим достичь такого результата, стал метод динамической квантизации. Этот подход позволяет сохранить веса высокопроизводительных слоёв модели, в то время как менее значимые блоки сжимаются до 1,58 бита. Таким образом, удаётся минимизировать потери в точности и производительности, сохраняя при этом компактность модели. Благодаря этому сжатую версию DeepSeek R1 теперь можно запустить даже на CPU с 20 ГБ оперативной памяти, что делает её доступной для использования на мощных домашних компьютерах или серверах начального уровня. Это особенно важно для исследователей, разработчиков и компаний, которые не имеют доступа к дорогостоящему оборудованию, но хотят использовать передовые технологии искусственного интеллекта. Unsloth не только сжала модель, но и сделала её доступной для широкой аудитории. Сжатые версии DeepSeek R1 были опубликованы в публичном доступе, а также размещены подробные инструкции для их локального запуска. Это позволяет любому желающему, обладающему базовыми навыками работы с нейронными сетями, использовать модель для своих задач. Сжатие модели позволяет экономить не только место на диске, но и вычислительные ресурсы. Это особенно важно для компаний, которые хотят минимизировать затраты на инфраструктуру. Несмотря на значительное сжатие, модель сохраняет высокий уровень производительности. Это делает её пригодной для решения сложных задач, таких как генерация текста, анализ данных и даже создание контента. DeepSeek R1 — это одна из самых мощных языковых моделей, способная конкурировать с такими гигантами, как GPT-4 или Gemini. Её сжатие до 131 ГБ открывает новые горизонты для использования ИИ в различных сферах, включая образование, медицину, финансы и развлечения. Например, теперь небольшие компании или даже индивидуальные разработчики могут использовать DeepSeek R1 для создания собственных чат-ботов, анализа текстов или автоматизации бизнес-процессов. Сжатие DeepSeek R1 до 131 ГБ — это настоящая революция в мире нейронных сетей. Она демонстрирует, что даже самые мощные модели можно адаптировать для использования на более доступном оборудовании без значительной потери производительности. Это открывает новые возможности для разработчиков, исследователей и бизнеса, делая передовые технологии ИИ доступными для всех. #ai#ии#deepseek

ForgetMe | Нейросети

@forgetmeai · Post #6046 · 24.04.2026, 07:58

✴️DeepSeek выкатила V4 Preview с контекстом в 1 миллион токенов DeepSeek открыла preview-линейку V4 и сразу выложила open weights. В серии две MoE-модели: DeepSeek-V4-Pro с 1,6 трлн параметров и 49 млрд активных и DeepSeek-V4-Flash с 284 млрд параметров и 13 млрд активных. Обе модели поддерживают контекст до 1M токенов, режимы thinking / non-thinking и уже доступны как в веб-интерфейсе DeepSeek, так и через API. Главный акцент релиза — длинный контекст и агентные задачи. DeepSeek пишет про новую схему внимания с token-wise compression и DeepSeek Sparse Attention, а V4-Pro подает как open-source флагман для reasoning, coding и agentic-сценариев. V4-Flash — более быстрый и дешевый вариант, который при этом тоже умеет работать с 1M контекстом и подходит для повседневных задач. Отдельно компания заявляет интеграцию V4 с агентными инструментами вроде Claude Code, OpenClaw и OpenCode. В API достаточно просто сменить имя модели на deepseek-v4-pro или deepseek-v4-flash. При этом deepseek-chat и deepseek-reasoner DeepSeek собирается полностью отключить 24 июля 2026 года в 15:59 UTC — сейчас эти маршруты уже фактически ведут на V4-Flash в обычном и thinking-режимах. Источники: Tech Report | Open Weights | API Docs 🤑ForgetMe | Boosty Приобрести подписку на любые сервисы ⏩@forgetshop_bot #нейросети#новости#deepseek