TGINSIGHT CHAT
Machinelearning
@ai_machinelearning_big_data
ТехнологииПогружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Последние посты
Стр. 16 из 85 · 1,009 постов
🔥 Опубликованы веса и код Green-VLA — модели для управления роботами общего назначения. Сбер открыл доступ к своей Vision-Language-Action модели. В феврале эта работа стала лучшей статьей недели на Hugging Face, а сейчас всё выложили в open-source. 🔘Главное о технической части: - В основе лежит Qwen3-VL-4B и трансформер, который с помощью flow-matching предсказывает действия робота в реальном времени - Модель обучалась в пять этапов, от мультимодальных веб-данных до примеров с реальных роботов - Унификация робототехнических данных позволяет модели лучше обобщаться и работать на разных роботах Благодаря такому подходу, модель получает лучшие метрики на робототехнических бенчмарках Fractal и Bridge. 🔘Состав релиза: - исходный код для обучения и инференса на GitHub; - предобученные веса на платформе Hugging Face; 🔜 Релиз может быть важен для всех, кто занимается робототехникой. Базовую модель можно быстро дообучить под конкретного робота и использовать ее для решения реальных задач, например на производствах или складах. @ai_machinelearning_big_data #ai#ml#sber
🌟Self-Flow: обучение диффузионных моделей без внешних энкодеров от Black Forest Labs. Black Forest Labs и MIT решили проблему, с которой сталкиваются диффузионные и flow-модели: чтобы генерировать качественные картинки, им нужны сильные семантические представления. Обычно их берут снаружи - выравнивают внутренние признаки модели с признаками энкодера вроде DINOv2. Метод работает, но есть нюанс. Чем сильнее энкодер, тем хуже результат: в экспериментах замена DINOv2-B на более мощный DINOv3-H+ стойко ухудшала FID. Модель привязывалась к фиксированным внешним представлениям и переставала масштабироваться. На видео и аудио выравнивание с энкодерами V-JEPA2 и MERT вообще давало результат хуже ванильного flow matching. 🟡Self-Flow предлагает механизм Dual-Timestep Scheduling В стандартном flow matching все токены нойзятся одинаково, поэтому модель решает задачу локально и не учится строить глобальные связи. Self-Flow сэмплирует 2 разных уровня шума и случайно назначает их разным токенам (часть входа зашумлена сильнее, часть чище). Это создает асимметрию: чтобы восстановить сильно зашумленные токены, модель вынуждена опираться на чистые и строить глобальный контекст. Поверх этого работает самообучение по принципу дистилляции. Обучаются одновременно 2 копии модели: модель-ученик видит смешанный зашумленный вход, модель-учитель - более чистую версию (EMA-копия с экспоненциальным скользящим средним). Ученик учится предсказывать признаки учителя из зашумленного входа, и это вынуждает его развивать сильные семантические представления без какого-либо внешнего энкодера. 🟡Результаты тестов 🟢На ImageNet 256×256 Self-Flow показал FID 5.70 против 5.89 у REPA; Это, кстати, первый случай, когда self-supervised метод превзошел внешнее выравнивание на этом бенче 🟢На text-to-image: FID 3.61 против 3.92 у REPA; 🟢По видео: FVD 47.81 против 49.75 у REPA; 🟢По аудио: лучшие FAD-оценки среди всех вариантов. При этом на масштабировании (с 290M до 1B) разрыв с REPA увеличивается: модель Self-Flow на 625M параметров обходит REPA на 1B. Метод универсален для модальностей - он работает одинаково на картинках, видео и аудио, что намекает на применение для мультимодального обучения. В репозитории проекта есть код инференса на основе SiT-XL/2 с per-token timestep conditioning, чекпоинт на основе ImageNet 256×256 и скрипты для генерации сэмплов под FID-оценку через ADM evaluation suite. Поддерживаются режимы SDE и ODE, мульти-GPU через torchrun. 🟡Статья 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI#ML#Multimodal#Framework#BFL
Hashtags
Архитектура распределённого инференса для долгоживущих LLM-сессий Эксплуатация современных агентских LLM уже не про «поднять контейнер на GPU и прикрутить балансер». Чтобы экономика сходилась и железо утилизировалось эффективно, нужно учитывать реальный паттерн нагрузки: долгие сессии, многошаговые диалоги, большие контексты. Yandex AI Studio недавно выкатила обновление, в котором открыла доступ к стабильному инференсу DeepSeek V3.2. Поговорим про сам инференс и другие обновления – что там под капотом? 🟡Ключевые изменения — Prefill / Decode Split. Prefill-ноды ускоряют прогон длинных контекстов (TTFT↓), decode-ноды стабилизируют генерацию и поддерживают низкий TBT. — Иерархия KV-кэшей – GPU → CPU RAM → распределённый слой. — Переиспользование KV-кешей. KV-кэши передаются между серверами прямо во время обработки запроса, в реальном времени — фактически гигабайты данных, которые нужно доставлять между GPU за очень короткое время. — Cache-aware балансировка. Маршрутизирует запросы с учётом расположения кэшей в кластере, чтобы максимизировать Cache Hit Rate в многошаговых сессиях. 🟡Безопасность и тарификация Появились управляемые правила модерации. Можно контролировать допустимость запросов и ответов моделей на основе политики безопасности, категорий контента и созданных словарей. Добавили возможность по запросу подключать выделенный сетевой канал и частные эндпоинты для работы с моделями без выхода в публичный интернет. Добавлены два новых типа токенов: • токены инструментов — нововведение от Яндекса. Токены срабатывают при вызове встроенных тулов (File Search, Web Search, MCP, Code Interpreter). Стоят дешевле обычных входящих / исходящих; • токены кеширования — уже отраслевой стандарт за рубежом, который только приходит на российский рынок. Часть контекста повторно используется при повторении, модель отрабатывает побыстрее, а денег тратит поменьше. 🟡Что еще рассказывают Стек для оптимизации инференса: • Dynamo как оркестрация/балансировка, • MoonCake как распределённый KV-store, • SGLang как Inference Engine. Законтрибьютили 20+ патчей в опенсорс, чтобы довести решение до эксплуатационного качества. @ai_machinelearning_big_data #AI#ML#LLM#inference#DeepSeek
Hashtags
✔️OpenAI делает внутреннюю альтернативу GitHub. Компания приступила к созданию собственной платформы для хостинга кода, чтобы снизить зависимость от инфраструктуры Microsoft. Поводом для запуска проекта стали недавние перебои в работе GitHub, которые заблокировали доступ инженеров OpenAI к репозиториям и парализовали разработку. Сейчас проект находится на ранней стадии, его реализация займет несколько месяцев. Пока речь идет об исключительно корпоративном инструменте - планов по открытию доступа к новому репозиторию для сторонних разработчиков у компании нет. theinformation.com ✔️Physical Intelligence разработала архитектуру двухуровневой памяти для роботов. Стартап анонсировал Multi-scale Embodied Memory, архитектуру памяти для робототехнических VLA-моделей. Технология решает потерю контекста при выполнении длинных многоэтапных задач. Система объединяет 2 механизма. Краткосрочная память работает через оптимизированный видеоэнкодер, который отвечает за пространственную осведомленность и позволяет моделям на лету адаптироваться к ошибкам. Долгосрочная память оперирует текстовыми абстракциями - модель сама генерирует языковые заметки о выполненных шагах, запоминая статус задачи и расположение скрытых из виду предметов. Интеграция MEM в базовую модель π0.6 позволила роботам успешно справляться с непрерывными поручениями длительностью до 15 минут. Релиз закладывает фундамент для автономных систем, способных самостоятельно планировать сложную бытовую рутину на часы или дни вперед. pi.website ✔️Autodesk представила ИИ-генератор для создания 3D-моделей. Autodesk добавила новую генеративную ИИ-модель Wonder 3D в платформу Flow Studio. Инструмент заметно ускоряет прототипирование: доступно создание полноценных 3D-персонажей и пропсов на основе текстового промпта или 2D-референса. Помимо создания черновой геометрии, Wonder 3D предлагает набор утилит для доработки ассетов. Нейросеть умеет накладывать текстуры, перестраивать топологию сетки и точечно редактировать визуальные элементы без перегенерации. Полученные объекты экспортируются в классические 3D-пайплайны, игровые движки и софт для 3D-печати. Новые инструменты уже доступны во всех планах Flow Studio, включая бесплатный базовый тариф. Стоимость любого запроса фиксирована и составляет 20 кредитов. autodesk.com ✔️В NotebookLM появилась функция Cinematic Video Overviews. Google расширила возможности NotebookLM новым генератором роликов Cinematic Video Overviews. Инструмент автоматически создает качественные анимации, окончательно заменяя привычные презентации с монотонным закадровым голосом. В основе функции лежит интеграция Gemini 3, Nano Banana Pro и Veo 3. В этой связке Gemini 3 выступает в роли виртуального креативного директора, который самостоятельно принимает решения по стилистике, нарративу и структуре будущего видео без дополнительных усилий со стороны пользователя. На старте новая функция поддерживает только английский язык и открыта эксклюзивно для пользователей Google AI Ultra. NotebookLM в сети Х ✔️Ключевые фигуры Qwen покидают Alibaba. Спустя несколько часов после выпуска серии компактных моделей Qwen 3.5 команду покинули несколько специалистов: технический руководитель проекта Цзюньян Лин, под началом которого разрабатывались все поколения Qwen, исследователь Биньюань Хуэй и разработчики Кайсинь Ли и Юй Бовэнь. Официальной причиной называют реорганизацию в лаборатории Tongyi Lab: корпорация переходит от продуктовых команд к точечным рабочим группам, но по неподтвержденным данным, уход создателей Qwen может быть связан с плохими показателями дневной активной аудитории продуктов на базе этих моделей. venturebeat.com @ai_machinelearning_big_data #news#ai#ml
✔️Y Combinator станет площадкой для запуска ARC-AGI 3. Венчурный акселератор готовится провести25 марта Launch Party, посвященное релизу третьей версии бенчмарка ARC-AGI. По словам создателей, он станет новым этапом в развитии одного из самых строгих тестов на способность ИИ к абстрактному мышлению. Серия испытаний Abstraction and Reasoning Corpus (ARC), созданная Франсуа Шолле, стала главным инструментом для проверки того, умеют ли алгоритмы решать логические задачи, а не просто воспроизводить заученные паттерны. Ожидается, что запуск ARC-AGI-3 предложит ML-сообществу обновленные наборы задач, которые бросят вызов современным моделям и помогут точнее измерить реальный прогресс на пути к AGI. На мероприятии будут Грег Камрадт, Франсуа Шолле и Сэм Альтман. @ai_machinelearning_big_data #news#ai#ml
Опубликован 4 мар.
AI как сервис: как эффективно внедрять искусственный интеллект сегодня↗️ Вокруг AI много разговоров о будущем, прогнозов и футуристичных сценариев. На конференции GoCloud 2026 от провайдера Cloud.ru сделают другой фокус — как бизнес может использовать AI уже сейчас. В программе есть доклады про создание AI-агентов, AI-workflow, RAG, безопасность при работе с GenAI и другие актуальные темы. А еще вас ждут: ▶️кейсы лидеров рынка ▶️демозоны сервисов ▶️практические воркшопы под руководством экспертов ▶️возможность задать вопросы разработчикам решений ▶️полезные знакомства и afterparty Где и когда: Встречаемся 9 апреля офлайн в Москве или на онлайн-трансляции. 👉Успейте зарегистрироваться👈
⚡️Anthropic расширила возможности skill-creator. Anthropic перенесла часть инженерной культуры: тестирование, бенчмаркинг и итеративность в процесс создания навыков и для этого теперь не нужно уметь писать код. В skill-creator добавили автоматические тесты, бенчмарки и A/B-сравнения и теперь создатели навыков могут измерить, работает ли skill, до его запуска в продакшен. 🟡Центральный инструмент - evals (автотесты качества). Автор задает тестовые промпты и описывает, как выглядит нужный результат. Skill-creator запускает их параллельно: с навыком и без него. Независимый агент-сравниватель оценивает результаты вслепую, не зная, какая версия перед ним, и сразу показывает, дает ли навык реальный прирост. Внутренние тесты Anthropic: точность PDF-навыка выросла с 6/8 до 7/8, Excel-навыка - с 6/8 до полных 8/8. Отдельный бенчмарк-режим дает детальную картину по каждому прогону: процент успешных тестов, время выполнения, расход токенов. На примере PDF-навыка при работе с незаполняемыми формами и таблицами из многостраничных документов успешность выросла с 40 до 100% (при том же времени выполнения). 🟡Evals полезны и в долгосрочной перспективе. Если базовая модель начинает проходить тесты без загруженного навыка - это сигнал о том, что навык уже есть в ее поведении и skill можно отключить. Результаты тестов хранятся локально и интегрируются в CI-системы. 🟡Обновление улучшило триггерную активацию. Claude решает, когда подключить навык, исключительно по короткому текстовому описанию в системном промпте. Skill-creator теперь анализирует эти описания против тестовых промптов и предлагает правки, снижающие и ложные срабатывания и пропуски. По результатам внутреннего прогона триггеринг стал лучше на 5 из 6 публичных навыков. Все обновления уже доступны в вебе и Cowork. Для Claude Code обновили плагин или вот он же - в репозитории, если ставить руками. @ai_machinelearning_big_data #news#ai#ml
✔️США ограничат экспорт Nvidia H200 для Китая лимитом в 75 тыс. единиц на клиента. Американские власти обсуждают новые квоты на поставки ускорителей в Китай. Под ограничения попадут Nvidia H200 и AMD MI325. Хотя общий объем разрешенного экспорта может достичь 1 млн. единиц, лимит в 75 тысяч штук в одни руки серьезно ударит по планам Alibaba и ByteDance. В подобных условиях им будет крайне сложно закупать оборудование в объемах, необходимых для развертывания вычислительных кластеров. Итоговая конфигурация экспортного контроля пока не утверждена. Ожидается, что в ближайшие недели президент США встретится с главой КНР, чтобы обсудить условия поставок H200 на китайский рынок - главным требованием американской стороны остается использование чипов исключительно для невоенного сектора. bloomberg.com ✔️Федеральные ведомства США массово отказываются от Anthropic. Сразу несколько американских министерств - Пентагон, Госдепартамент и Минфин, начали процесс миграции с ИИ-решений Anthropic на альтернативные платформы. Резкий переход спровоцирован указом президента США, который предписал полностью исключить продукты компании из правительственной ИТ-инфраструктуры в течение 6 месяцев. При этом форсированный отказ от привычных инструментов местами приводит к технологическому даунгрейду. Например, Госдепартамент уже начал заменять модели семейства Claude в своих внутренних корпоративных чат-ботах на устаревшую версию GPT-4.1 от OpenAI. reuters.com ✔️Институт Аллена открыл исходный код семейства Molmo 2. Теперь разработчики могут самостоятельно обучать и развертывать Molmo 2 на собственных данных. Это семейство моделей, представленное в декабре 2025 года, которое специализируется на глубоком понимании видео и изображений, показывает SOTA в трекинге объектов, подсчете и покадровом логическом выводе. Ai2 опубликовали полный набор инфраструктурных инструментов. Репозиторий включает скрипты для претрейна и файнтюнинга (включая SFT), поддержку распределенного обучения на нескольких узлах, а также утилиты для подготовки данных и оценки качества. Помимо пайплайна обучения, открыт инструментарий для деплоя. В него вошли конвертер чекпоинтов в стандартный формат Hugging Face, примеры инференса на transformers и vLLM, легковесная утилита для офлайн-обработки графики, а также готовый Docker-образ и Gradio-демо. Ai2 в сети Х ✔️В Claude Code началось развертывание голосового режима. Функция пока доступна лишь 5% пользователей, но охват будет расти в ближайшие недели. Если у вас появился доступ (об этом сообщит уведомление на стартовом экране), режим активируется командой /voice. Механика ввода работает по принципу рации: зажимаете пробел, диктуете запрос и отпускаете клавишу. Распознанный текст транслируется прямо в позицию курсора, что дает бесшовную комбинацию форматов - можно начать писать запрос руками, надиктовать самую объемную часть голосом и продолжить печатать. Голосовой режим не требует дополнительной платы, а токены, затраченные на транскрибацию речи, не учитываются в лимитах. Новая возможность будет внедряться постепенно для всех подписчиков тарифов Pro, Max, Team и Enterprise. Thariq Shihipar (Claude Code Team) в сети Х ✔️Intel представила серверные процессоры Xeon 6+. Компания официально анонсировала линейку Xeon 6+ под кодовым названием Clearwater Forest. Это первые чипы для дата-центров, изготовленные по 1.8-нанометровой технологии и ориентированные на облачные вычисления, телеком и периферийный ИИ. В максимальной конфигурации чип содержит 288 ядер Darkmont. В двухсокетных серверах соответственно - 576 ядер, что позволяет разворачивать сотни виртуальных машин. Платформа совместима с существующими серверными сокетами Xeon и предлагает 12 каналов памяти DDR5-8000 и 96 линий PCIe 5.0. Первые системы на базе новых процессоров поступят на рынок до конца года. tomshardware.com @ai_machinelearning_big_data #news#ai#ml
⚡️ChatGPT-5.3 Instant Похоже, это такая новая тенденция - релизить новинки синхронно. OpenAI развернула GPT-5.3 Instant, масштабный апдейт своей самой используемой модели. В этот раз создатели сфокусировались на качестве общения: модель стала реже отказывать в обработке безопасных запросов и избавилась от излишне осторожных, морализирующих нравоучений. Существенно улучшена логика работы с веб-поиском. GPT-5.3 Instant глубже синтезирует найденные данные с собственными знаниями, не сводя выдачу к простому перечислению ссылок. В релизе говорят, что заметно подросла фактологическая точность: в сложных областях (медицина, право, финансы) количество галлюцинаций упало на 26,8% при поиске в сети и на 19,7% при опоре только на внутреннюю базу. Также улучшены навыки генерации текста, слог стал более живым и разнообразным по стилю. Модель уже открыта для всех, в том числе через API по идентификатору gpt-5.3-chat-latest. Предыдущая версия, GPT-5.2 Instant, останется в Legacy-доступе для платных подписчиков до 3 июня этого года, после чего ее отключат. @ai_machinelearning_big_data #news#ai#ml
⚡️Gemini 3.1 Flash-Lite - самый экономичный Gemini 3 Google представил Gemini 3.1 Flash-Lite - ультрабыструю и максимально дешёвую модель в линейке Gemini 3. Цена - всего $0.25 за 1 млн входных токенов и $1.50 за 1 млн выходных токенов. Модель выполняет задачи быстрее и обходится в разы дешевле крупных моделей, обеспечивая увеличение скорости генерации на 45% по сравнению с Gemini 2.5 Flash. Главное: • Настраиваемые уровни "мышления" Можно регулировать глубину рассуждения под задачу - от лёгких операций до более сложной логики. • Подходит для high-scale задач Оптимизирована для массовых сценариев - генерация UI, дашбордов, симуляций, автоматизация workflow. • Доступна через Gemini API Разработчики уже могут тестировать модель в Google AI Studio. Отличный дешёвый и быстрый ИИ. https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/ @ai_machinelearning_big_data #Gemini
Hashtags
Опубликован 3 мар.
🙂 Дежурное "В Silicon Valley знали все заранее" @ai_machinelearning_big_data
🌟Как YouTube ускорил проверку валидных рекомендаций в LLM в 948 раз. YouTube и Google DeepMind опубликовали статью и код фреймворка STATIC. Проблема, которую он решает, хорошо знакома всем, кто строит рекомендательные системы на базе LLM: модель генерирует идентификаторы позиций, которых нет в каталоге, вышли из продажи или нарушают бизнес-правила. Именно поэтому YouTube выдает старые видео в ленте там, где должны появляться ролики последней недели. Очевидное решение - префиксное дерево: на каждом шаге декодирования маска блокирует невалидные токены. Работает в целом нормально, но убивает производительность на TPU и GPU. Причины две: 🟠Обход через цепочки указателей создает случайный, несмежный паттерн доступа к памяти, а память ускорителей рассчитана на потоковое чтение блоками, а не на такой режим. 🟠Гугловский XLA-компилятор требует статических вычислительных графов, а префиксное дерево с управлением потоком, зависящим от данных, в это не вписывается. В итоге префиксное дерево на CPU удваивает время инференса, что для системы с целевой задержкой ≤10 мс на шаг неприемлемо. STATIC меняет подход принципиально: дерево разворачивается в статическую разреженную матрицу формата Compressed Sparse Row. Обход превращается в векторизованную операцию, которую акселератор умеет выполнять нативно. Для первых двух уровней дерева, где коэффициент ветвления максимален, используется предвычисленная плотная булева маска: проверка валидности токена сводится к прямому обращению по индексу, без какого-либо перебора. Для глубоких уровней работает специализированное ядро Vectorized Node Transition Kernel, оно читает фиксированный блок данных вне зависимости от реального числа дочерних узлов, не создавая условных переходов. В этом и есть вся соль: весь граф остается статическим, XLA не перекомпилирует ничего на ходу. 🟡Тесты и результаты Замеры проводили на TPU v6e с 3B-моделью и словарем из 20 млн. свежих видео. STATIC добился задержки 0,033 мс на шаг декодирования (это всего 0,25% от общего времени инференса. Для сравнения: префиксное дерево на CPU давало +31,3 мс (239% от инференса), лучший из конкурирующих методов непосредственно на акселераторе, PPV Approximate +1,56 мс (11,9%). Итоговый профит: 🟢948x против дерева на CPU; 🟢47x против PPV Approximate; 🟢1033x против точного PPV. По памяти: ~90 МБ на 1 млн. элементов. Для словаря в 20 млн. верхний предел по HBM примерно 1,5 ГБ, на практике - около 75% от этого значения. 🟡STATIC развернут на YouTube в продакшне. A/B-тест с условием «только видео за последние 7 дней» показал +5,1% просмотров свежего контента, +2,9% для трехдневного окна, +0,15% по CTR и 100% соответствие бизнес-правилам. Дополнительный бонус: метод решает проблему рекомендации новых товаров, не представленных в обучающей выборке. На датасете Amazon Reviews Recall@1 вырос с 0% до 1,2–4,4% в зависимости от категории. В репозитории лежит ноутбук, на котором без утомительной настройки можно сразу посмотреть, как строится индекс из Semantic ID и как запускается декодирование с ограничениями. 📌Лицензирование: Apache 2.0 License. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#STATIC#DeepMind