TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват202,700Просмотры последних постов
Последние посты

Последние посты

Тег: #bytedance · 7 постов

当前筛选 #bytedance清除筛选

Опубликован 12 мар.

🌟ByteDance перезапустила DeerFlow. DeerFlow 2.0 - проект, переписанный с нуля, который не имеет ничего общего с первой версией. Там был фреймворк для глубокого ресерча, а здесь полноценный рантайм для агентов. 🟡В основе лежит связка LangGraph и LangChain. Главный агент получает задачу, разбивает ее на подзадачи и порождает суб-агентов на лету. Каждый из них работает в изолированном контексте: не видит данные других агентов и главного процесса. Суб-агенты запускаются параллельно, когда это возможно, и возвращают структурированные результаты, а главный агент собирает из них финальный вывод. Сессия живет в изолированном Docker-контейнере с полноценной файловой системой, главный агент и суб-агенты работают в ней совместно. Агент читает и пишет файлы, выполняет bash-команды, работает с изображениями. Между сессиями нет никакой взаимной путаницы. 🟡Навыки и инструменты Возможности агента определяются через Skills. Из коробки есть исследование, генерация отчетов, создание слайдов, веб-страниц, изображений и видео. Навыки загружаются по мере необходимости, только когда задача их требует. Это снижает нагрузку на контекстное окно и позволяет работать с моделями, чувствительными к расходу токенов. Инструменты - по той же логике: базовый набор (веб-поиск, fetch, работа с файлами, bash), плюс поддержка MCP-серверов и произвольных Python-функций. Все можно заменить или расширить. 🟡Память и контекст DeerFlow помнит пользователя между сессиями. Накапливается профиль: стиль письма, технический стек, повторяющиеся сценарии. Данные хранятся локально. Внутри длинной сессии система сама управляет контекстом: завершенные подзадачи суммируются, промежуточные результаты уходят на диск. Контекстное окно не раздувается. 🟡Интеграции Поддерживаются Telegram, Slack и Feishu. Из Claude Code можно взаимодействовать с запущенным инстансом DeerFlow напрямую через специальный skill: отправлять задачи, управлять тредами и выбирать режим выполнения. 🟡Модели и деплой Система работает с любой моделью через OpenAI API, включая локальные через Ollama. ByteDance рекомендует использовать модели, которые поддерживают длинный контекст (100k+ токенов), ризонинг, мультимодальность и надежный tool-use. DeerFlow также встраивается как Python-библиотека без запуска HTTP-сервисов: from src.client import DeerFlowClient client = DeerFlowClient() response = client.chat("Analyze this paper", thread_id="my-thread") 📌Лицензирование: MIT License. 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#Agents#DeerFlow#ByteDance

31,500 views

Опубликован 10 нояб.

🧠ByteDance показывает: моделям для рассуждений нужны не только слова, но и картинки MIRA - Multimodal Imagination for Reasoning Assessment, тест, который измеряет, как модели рассуждают, если им дать промежуточные визуальные шаги. Суть очень простая и понятная: - Там, где текст не помогает, картинки резко улучшают мышление модели. - Если дать модели рисунки промежуточных шагов, точность в среднем растёт на 33.7%. - Бенчмарк включает 546 задач в 20 категориях, где нужно «видеть», а не просто читать: кубики, зеркала, траектории, силы и тд. Как устроена проверка: - прямой вопрос - рассуждение текстом - рассуждение с визуальными шагами (скетчами) Что выяснилось: - Только текст часто делает хуже, потому что слова плохо описывают пространство. - Если дать модели картинки - результат сильно улучшается, особенно в точных науках. В бенчмарке: 546 задач по геометрии, физике, логическим головоломкам и причинным связям. Режимы тестирования: • Direct - модель отвечает напрямую • Text-CoT - текстовый chain-of-thought • Visual-CoT - модель рассуждает через рисунки и визуальные шаги Ключевые результаты: • Ни одна модель не превысила 20% точности в Direct-режиме (GPT-5 ~16.5%) • Text-CoT часто ухудшает результат (например, −18% у Gemini 2.5 Pro) • Visual-CoT даёт средний прирост +33.7%, особенно заметный в задачах по физике Главный вывод: Моделям нужен *визуальный способ думать*. Им нужно уметь читать простые схемы, понимать их и использовать в рассуждениях, иначе многие задачи просто остаются нерешаемыми. Статья: arxiv.org/abs/2511.02779 @ai_machinelearning_big_data #ByteDance

27,000 views

Hashtags

Опубликован 23 окт.

🎥 Новинка от ByteDance: модель Video-As-Prompt Wan2.1-14B ByteDance выпустила модель Wan2.1-14B, специализирующуюся на задаче *video-as-prompt*, то есть использование видео или комбинации изображений и текста как входных данных для генерации нового видео. - Работает в режимах «видео → видео» или «изображения/текст → видео». - 14 млрд параметров — высокая детализация, плавная динамика, реалистичные движения. - Использует исходное видео как шаблон стиля и композиции. ⚠️ Что стоит учитывать - Модель требует мощных GPU и большого объёма памяти. - Качество результата зависит от сложности запроса и длины видео. 🟠Github: https://github.com/bytedance/Video-As-Prompt 🟠HF: https://huggingface.co/ByteDance/Video-As-Prompt-Wan2.1-14B @ai_machinelearning_big_data #AI#VideoGeneration#ByteDance#Wan2#HuggingFace

34,400 views

Опубликован 12 сент.

✨HuMo : еще один релиз от ByteDance Модель, ориентированная на создание видео, где главным элементом является человек, с контролем через разные модальности: текст, изображения, аудио. > на входи модель может принимать: текст + изображение, текст + аудио, текст + аудио > поддержка сохранения образа персонажа и синхронизации движений с аудио > модель основана на **Wan 2.1** и Whisper Large v3 https://huggingface.co/bytedance-research/HuMo @ai_machinelearning_big_data #AI#ByteDance#HuMo#VideoGeneration#Multimoda

21,500 views

Опубликован 31 авг.

💡 Исследователи из ByteDance и Stanford предложили новый метод для генерации длинных видео — Mixture of Contexts. 🔑 В чём проблема: Когда видео становится длинным, внимание модели сильно «раздувается»: растёт стоимость вычислений, модель теряет детали на генерациях, забывает персонажей и «дрейфует». ⚡ Чем интересен Mixture of Contexts: - Видео разбивается на куски (кадры, шоты, подписи). - Каждый запрос выбирает только нужные чанки, вместо того чтобы учитывать всю историю. - Для этого используется простая оценка релевантности: сравнение признаков чанков с текущим запросом. - Обязательно учитываются два «якоря»: полный текстовый промпт и локальный шот для деталей видео. - Causal mask блокирует внимание к будущим кадрам, чтобы не было зацикливаний. - Дальше применяется Flash Attention только к выбранным чанкам — вычисления растут не с длиной всего видео, а только с полезным контекстом. 📊 Результаты: - В 7 раз меньше FLOPs - В 2.2 раза быстрее работа - На длинных сценах (180k токенов) отсекается 85% ненужного внимания 🎥 Итог: - Короткие клипы сохраняют качество - Длинные сцены становятся более плавными, а персонажи — стабильными - Время генерации заметно сокращается Главное: модель учится сама понимать, на что смотреть, получая «память» на минуты видео без изменения базовой архитектуры. 🟠Подробнее @ai_machinelearning_big_data #AI#ML#ByteDance#Stanford#videogeneration

31,600 views

Опубликован 16 июл.

🌟MoVieS: Синтез 4D-видов с учетом движения. ByteDance в соавторстве с Пекинским университетом и Карнеги Меллон разработали MoVieS, feed-forward модель, которая из обычного монокулярного видео за секунду синтезирует полноценную 4D-сцену, объединяя в себе геометрию, внешний вид и, что самое важное, движение. В основе метода лежит идея представления динамической сцены с помощью «динамических сплэттер-пикселей». Если вы знакомы с 3D Gaussian Splatting, то поймете сразу: модель представляет каждый пиксель входного видео как гауссов примитив в 3D-пространстве. Новизна MoVieS в том, что она не просто определяет их статичные параметры (положение, цвет, прозрачность), но и предсказывает вектор их движения во времени. Иными словами, для каждой частицы в сцене модель знает, где она будет в любой заданный момент. Архитектурно MoVieS построена на геометрически предобученном трансформере VGGT, который обрабатывает кадры видео. Далее в дело вступают три специализированные «головы»: 🟠Depth Head - предсказывает карту глубины; 🟠Splatter Head - отвечает за атрибуты самих гауссовых сплэттеров для рендеринга; 🟢Motion Head - самая главная, оценивает смещение каждого примитива. Такой единый фреймворк позволяет обучать модель на самых разнородных датасетах: где-то есть разметка глубины, где-то - трекинг точек, а где-то - только видео. MoVieS - это еще про скорость. Согласно техотчету, на генерацию сцены уходит меньше секунды (0.93 с), тогда как у альтернативных методов на это уходят десятки минут. При этом качество на бенчмарках динамических сцен (DyCheck и NVIDIA) либо на уровне, либо превосходит SOTA решения. Но самое интересное - это zero-shot возможности. Модель, обученная по сути на задаче синтеза новых ракурсов, внезапно оказывается способна без всякого дополнительного обучения сегментировать движущиеся объекты и оценивать scene flow (попиксельный поток в 3D). Достаточно просто посмотреть на предсказанные векторы движения. ⚠️Кода для инференса, обучения и чекпоинтов пока нет, но обещают. 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#4D#MoVieS#ByteDance

29,400 views

Опубликован 8 июл.

🌟EX-4D: генерация видео с экстремальными движениями камеры. EX-4D - совместная разработка ByteDance и Pico, которая предлагает элегантное решение проблемы генерации экстремальных ракурсов камеры для видео. Методика позволяет генерировать видео с амплитудой угла камеры от -90° до 90°, опираясь на новый тип геометрического представления, Depth Watertight Mesh (DW-Mesh). В отличие от стандартных методов, которые строят 3D-сцену только из видимых поверхностей, DW-Mesh создает трехмерный замкнутый меш на основе данных о глубине сцены. Он моделирует не только то, что видит камера, но и пытается логически завершить скрытые от нее области. По сути, система строит цельный геометрический каркас сцены, который сохраняет свою форму даже при взгляде с самых неожиданных углов. Это предотвращает появление разрывов и искажений, когда ранее невидимая часть объекта попадает в кадр. При создании EX-4D использовали уникальную стратегию обучения, которая не требует многоракурсных видеосетов. Разработчики обошли эту проблему, заставив модель создавать обучающие данные для самой себя. Используя построенный DW-Mesh, система генерирует маски, симулируя, какие части сцены были бы скрыты при других ракурсах. Этот подход с двумя компонентами, Rendering Mask и Tracking Mask, имитирует реальные условия съемки с разных точек и дает временную согласованность маскировки, обучая модель правильно «додумывать» геометрию. Вся эта система работает на базе видеомодели Wan2.1 (рекомендуют версию 14B 480p), но не требует ее полной перетренировки. Геометрическая информация от DW-Mesh интегрируется с помощью LoRA-адаптера, он выступает мостом между меш-каркасом и генеративной нейросетью. В тестах EX-4D обходит TrajectoryCrafter и ReCamMaster, особенно на больших углах. В пользовательских тестах 70 % участников отдали предпочтение видео, сгенерированным EX-4D, отметив физическую консистентность и высокое качество картинки. ⚠️ Локальный запуск потребует значительных ресурсов, особенно для видео высокого разрешения. Помимо Wan2.1, самой EX-4D, еще понадобятся пакеты nvdiffrast от NVlabs и DepthCrafter от Tencent. В планах: оптимизация инференса, поддержка 1К и 2К разрешения и новые техники уточнения мешей. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#EX4D#ByteDance#Video

27,300 views