TGINSIGHT CHAT
Machinelearning
@ai_machinelearning_big_data
ТехнологииПогружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Последние посты
Тег: #tencent · 14 постов
🌟HY-Embodied-0.5: компактная модель для роботов на Mixture-of-Transformers. Tencent Robotics X и Hunyuan Vision выложили веса HY-Embodied-0.5 MoT-2B — младшей модели нового семейства HY-Embodied-0.5 для воплощённого интеллекта. Семейство позиционируется как когнитивное ядро для VLA-пайплайнов: модель должна выполнять роль «мозга», который принимает кадры с камер робота, рассуждает о трехмерной сцене и выдает план действий исполнительному модулю. Формально MoT-2B содержит 4 млрд параметров, но на инференсе активируется только 2,2 млрд, что дает скорость плотной 2B-модели при качестве восприятия, сопоставимом с тяжёлыми VLM. В основе лежит архитектура Mixture-of-Transformers с латентными токенами и модально-специфичными вычислениями для зрительного тракта. Суть MoT: перед мультимодальным обучением Tencent дублирует FFN- и QKV-блоки языковой модели и инициализирует копию её же весами - визуальные токены прогоняются через визуальную ветку, текстовые через языковую. Помимо разделения FFN и QKV, разведены и механизмы внимания: для визуальных токенов используется двунаправленное полное внимание, для языковых - causal-внимание. Связующим звеном служат обучаемые visual latent tokens, которые приписываются в конец каждого визуального элемента (кадра или изображения) и переносят визуальную семантику в языковой контекст. В семействе будет старший вариант - HY-Embodied-0.5 MoE-A32B на 32 млрд активных параметров. Он построен уже на MoE и, по словам создателей, выходит на уровень Gemini 3.0 Pro. Веса флагмана не опубликованы, но именно эта модель выступает учителем в дистилляции, передавая навыки рассуждения младшей MoT-2B. 🟡Результаты на бенчмарках 🟢MoT-2B обходит Qwen3-VL 2B/4B, RoboBrain 2.5 4B и MiMo-Embodied 7B в большинстве из 22 тестов на визуальное восприятие и пространственное мышление: 89,2 на CV-Bench, 92,3 на DA-2K, 54,5 на ERQA и 66,3 на MindCube, где ближайший конкурент отстаёт почти вдвое. 🟠На задачах планирования (RoboBench-Planning, Ego-Plan2, RefSpatial-Bench) лидерство остаётся за RoboBrain и MiMo-Embodied, здесь Tencent пока догоняет. Для инференса рекомендуется GPU с минимум 16 ГБ VRAM. В планах - интеграция с vLLM и Gradio-демо. 📌Лицензирование: Tencent HY Community License 🟡Модель 🟡Arxiv 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI#ML#Embodied#Robotics#Tencent#Hunyuan
🌟Tencent HY-WU: динамические LoRA для редактирования изображений. Tencent HY опубликовала первую часть серии работ под названием HY-WU (Weight Unleashing). Суть метода в отказе от стандартной парадигмы адаптации, при которой модель получает один фиксированный набор весов для всех задач. Специальная модель-генератор синтезирует LoRA отдельно под каждый входной пример прямо во время инференса, без дополнительной оптимизации на тест-тайме. Проблема, которую решает HY-WU, хорошо знакома всем, кто работал с дообучением: когда задачи противоречат друг другу (например, "размыть" против "убрать размытие" или "состарить лицо" против "восстановить"), общий адаптер вынужден идти на компромисс. Градиенты конфликтуют, и результат оказывается хуже, чем если бы задачи обучались раздельно. Чтобы не быть голословными, авторы измерили это напрямую: косинусное сходство градиентов между разнородными задачами устойчиво отрицательно, среднее около −0.30, то есть задачи буквально тянут веса в противоположные стороны. HY-WU предлагает условную генерацию параметров. Модель-генератор (8B параметров) принимает на вход совместное представление изображения и текстового запроса через энкодер SigLIP2, после чего генерирует LoRA-матрицы (~0.72B) и инжектирует их в базовую модель. Обучение сквозное, только через downstream-loss, без предварительно собранных чекпойнтов адаптеров. 🟡Тесты и результаты Для тестов выбрали задачу редактирования изображения текстовым запросом - в нем конфликты неизбежны и визуально очевидны. 🟢В попарном human evaluation (GSB) HY-WU выигрывает у всех топовых open-source редакторов с большим отрывом: 67–78% против Step1X, Qwen, LongCat и FLUX; 🟢Среди закрытых систем модель обошла Seedream 4.5 (55.6%) и GPT Image 1.5 (55.5%). 🟠Единственные, кто пока впереди - Nano Banana 2 и Nano Banana Pro. Tencent проверили: прирост качества дается именно условной маршрутизацией, а не просто увеличением числа параметров. Когда генератор использовали с перемешанными или усредненными условиями, результат проваливался до уровня базовой модели. Полный SFT с намного большим числом обучаемых параметров давал сопоставимый результат с обычным Shared LoRA, так как в обоих случаях в инференсе применяется одна фиксированная точка в пространстве весов. Выпущенная работа - первая часть серии исследований по функциональной памяти для генеративных моделей. В планах: 🟢сравнить функциональную память с retrieval-подходами и понять, когда каждый из них уместен; 🟢разработать протоколы онлайн-обучения, при которых модель усваивает новые задачи без деградации на старых; 🟢исследовать масштабирование модели-генератора отдельно от базовой модели. Помимо этого, в планах выйти за пределы LoRA на другие операторные интерфейсы, распространить метод на видео и агентные системы, а также проработать возможность точечно удалять поведение модели через управление состоянием генератора. Кроме этого архиполезного исследования Tencent выложили связку из модели-генератора и базовой модели HY-Image-3.0-Instruct, поверх которой она и работает. Поиграться этой красотой можно, если под рукой простаивает 8х40 GB или 4х80 GB VRAM. 📌Лицензирование: Tencent Hunyuan Community License. 🟡Страница проекта 🟡Prompt Handbook (китайский) 🟡Модель 🟡Техотчет 🖥Github @ai_machinelearning_big_data #AI#ML#ImageEdit#HYWU#Tencent
Hashtags
🌟Tencent сжали 1.8B модель в 2 бита: 600 МБ веса и Dual-CoT на борту. Tencent Hunyuan выкатили open-source решение для тех, кто хочет запускать LLM локально на кофеварке. HY-1.8B-2Bit - модель, которую утрамбовали так плотно, что она занимает меньше места, чем многие современные мобильные приложения. Модель пилили методом Quantization-Aware Training, который в отличие от PTQ, позволяет адаптироваться к низкой разрядности весов еще на этапе тренировки. За основу взяли backbone Hunyuan-1.8B-Instruct и жестко сжали веса до 2 бит. При этом эффективный размер в памяти получился эквивалентен модели на 300М параметров, а физический вес получился всего 600 МБ. Что самое ценное - сохранили фичу Dual-CoT: модель умеет переключаться между быстрым мышлением для простых тасков и глубоким long-CoT для сложных. 🟡Бенчмарки 🟢По сравнению с fp16-учителем (1.8B), деградация метрик всего ~4%. Это очень мало для 2-битного квантования. 🟢Разница в точности на сравнении с INT4 ничтожна - 0.13%, хотя весит модель в 2 раза меньше. 🟢Если взять плотную модель на 0.5B параметров, то HY-1.8B-2Bit обходит ее в среднем на 16-17%. На GSM8K разрыв вообще дикий: +22.29%. 🟢Prefill ускорился в 3-8 раз, генерация токенов - в 2-3 раза на поддерживаемом железе. 🟡Жирный нюанс Текущая реализация требует поддержки инструкций Arm SME2. Это значит, что вся эта красота заведется только на Apple M4 и MediaTek Dimensity 9500. Если у вас M1/M2 или Snapdragon прошлых поколений - пока мимо. Разработчики обещают подвезти Neon kernel позже. Кстати, GGUF тоже есть, так что если под рукой есть M4 - можно тестить. Остальным остается ждать оптимизации под старые инструкции. 🟡Модель 🟡GGUF 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI#ML#SLM#2bitQ#Tencent
🌟HY3D-Bench: 22 терабайта отборной 3D-геометрии. Tencent Hunyuan вывалили в опенсорс монструозный пак HY3D-Bench на 22.5 ТБ и это подарок для всех, кто занимается 3D Gen и робототехникой. Датасет разбит на 3 логических куска, каждый под свои задачи: 🟡Full-level Dataset (252K+ мешей, ~11 ТБ) База с полностью замкнутой геометрией, без дырок и non-manifold артефактов, которыми обычно кишат сканы. Все нормализовано и готово к скармливанию в DiT или GAN. В комплекте идут сэмплы точек и мульти-вью рендеры. 🟡Part-level Dataset (240K+ объектов, ~5 ТБ) Мёд для робототехников и тех, кто занимается geometric perception. Тут объекты с семантической сегментацией на части. Если учите сервоприводного друга манипуляциям или хотите генерить объекты кусками - вам сюда. 🟡Synthetic Dataset (125K+ объектов, ~6.5 ТБ) Очевидная синтетика, чтобы закрыть редкие категории, которых нет в обычных датасетах. Охват - 1252 категории. Ждем волну SOAT-level 3D-генераторов, дотюненных на этом наборе. 🟡Arxiv 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI#ML#Dataset#HY3DBench#Tencent
Hashtags
🌟Tencent HPC-Ops: решение, которое выжмет максимум из H100 и H200. Продакшен больших моделей — штука дорогая и в таких масштабах реально бьются за каждый процент скорости. Tencent Hunyuan AI Infra выложила в открытый доступ HPC-Ops - рабочую библиотеку, на которой, в том числе, крутится их собственная инфраструктура. Разработчики решили не латать старое, а переписали все с нуля на чистой CUDA и CuTe специально под архитектуру Hopper. И это логично: популярные решения вроде vLLM или дефолтного FlashAttention часто не до конца утилизируют возможности железа. В HPC-Ops же целью была максимальная загрузка GPU. Внутри есть все, что нужно для сборки серьезного инференса: оптимизированные ядра внимания с paged attention, квантованный Grouped GEMM с поддержкой FP8 и блочным скейлингом, Fused MoE и инструменты связи нод для распределенных систем. На своих моделях с HPC-Ops у Tencent пропускная способность выросла на 30%, а для DeepSeek на 17%. Но интереснее всего дела обстоят с H20: там библиотека бустит ускорение до 2.22x по сравнению с тем, что было раньше. Если закопаться в цифры, то самый большой прирост на декодинге. Механизм внимания в BF16 на декоде работает в 2.2 раза быстрее, чем связка из FlashInfer, FlashAttention и TensorRT-LLM. На префилле профит поменьше — около 1.33x, но это тоже очень ощутимо. С FP8 история похожая: ускорение в 2 раза на декодинге и небольшие, но приятные 12% на префилле. Тот же FusedMoE в FP8 прибавляет почти 50% скорости в режиме префилла. HPC-Ops дружелюбен к vLLM и SGLang, но имейте в виду, что старое железо тут не поддерживается, это инструмент для карт SM90. В планах на будущее: 🟢sparse attention; 🟢поддержка 4-битного квантования; 🟢новые ядра, которые будут схлопывать вычисления и передачу данных между GPU. Если вы сейчас оптимизируете инференс на Хопперах и боретесь за каждый токен в секунду эту штуку стоит как минимум потестить. 📌Лицензирование: MIT License. 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#HPCOps#Tencent
⚡️Tencent выпустили новые open-source модели перевода HY-MT 1.5 Модель доступна в двух версиях: 1.8B и 7B. Обе работают как на устройстве, так и в облаке и показывают высокую скорость и точность. Модель идет в двух размерах: 1) 8B для устройств Оптимизирована под потребительское железо, занимает около 1 ГБ памяти. Благодаря on-policy distillation достигает задержки 0.18 секунды на 50 токенов, обходя многие коммерческие API. 2) 7B новая SOTA Превосходит большинство средних по размеру open-source моделей и сопоставима с закрытых решений. Поддержка 33 языков и 5 китайских диалектов с высокой точностью. Модели уже используются в сервисах Tencent. Связка двух моделей обеспечивает стабильную работу как на устройствах, так и в облаке. 🔹Попробовать: https://hunyuan.tencent.com/modelSquare/home/list 🔹GitHub: https://github.com/Tencent-Hunyuan/HY-MT 🔹Hugging Face: https://huggingface.co/collections/tencent/hy-mt15 @ai_machinelearning_big_data #opensource, #Tencent,
Hashtags
🌟GeoVista: модель для визуальной геолокации. Tencent в коллаборации с ведущими китайскими университетами выложила в открытый доступ модель GeoVista, которая предлагает интересный подход к решению проблемы "где сделано это фото" - она делает ставку на активный майнинг данных из внешних источников. Система на архитектуре Qwen2.5-VL-7B-Instruct использует 2 инструмента: функцию зума и поисковый движок, подтягивающий до 10 релевантных ссылок с платформ Tripadvisor, Pinterest и Wikipedia и социальных сетей. Модель самостоятельно решает, в какой момент задействовать тот или иной инструмент, что, по сути, имитирует ход мыслей человека-расследователя. GeoVista обучалась сначала (SFT) на 2 тыс. примерах, а потом (RL) уже на 12 тыс. примерах. Для балансировки RL собрали кастомную систему вознаграждений, привязанную к географической точности: правильный ответ на уровне города ценится выше, чем попадание в провинцию или страну. Готовую модель прогнали на собственном бенчмарке GeoBench. На нем GeoVista показала 92,6% точности при определении страны, 79,6% региона и 72,7% - конкретного города. Легче всего модели даются панорамы (79,5% точности на уровне города) и стандартные фото (72,2%), а вот спутниковые снимки остаются ахиллесовой пятой, здесь показатель падает до 44,9%. Если сравнивать с закрытыми моделями, то GeoVista дышит в спину Gemini 2.5 Flash (73,3% на уровне города) и заметно обходит GPT-5, который показал лишь 67,1%. Лидером пока остается Gemini 2.5 Pro с результатом 78,98%, а вот другие открытые модели (Mini-o3-7B), безнадежно отстают с показателем 11,3%. В метриках физического расстояния разрыв с топами ощутим сильнее. 52,8% предсказаний GeoVista попали в радиус 3 километров от реальной точки, при этом медианное отклонение составило 2,35 километра. Для сравнения, Gemini 2.5 Pro укладывается в 3-километровую зону в 64,45% случаев с медианным отклонением всего в 800 метров. Даже GPT-5, проигравший в общей точности, показал медиану в 1,86 км. Помимо модели, команда опубликовала и сам датасет GeoBench: 1142 изображения из 66 стран и 108 городов. В выборку вошли 512 обычных фотографий, 512 панорам и 108 спутниковых снимков. Главное отличие этого набора от аналогов вроде OpenStreetView-5M - жесткая фильтрация. Разработчики намеренно удалили "нелокализуемые" изображения: крупные планы еды или типичные пейзажи без примет и слишком очевидные достопримечательности, чтобы исключить легкие победы для алгоритмов. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🟡Датасет 🖥Github @ai_machinelearning_big_data #AI#ML#LLM#GeoVista#Tencent
✔️Tencent представила HunyuanVision - новую мультимодальную модель, объединяющую зрение и язык в одном фреймворке. Модель умеет рассуждать на основе изображений, понимать сложные визуально-текстовые задачи и поддерживает мультиязычные кейсы. Ключевые особенности: - Visual Reasoning - глубокое понимание изображений и сцен - Multilingual Support - работа с несколькими языками - Visual Dialogue - позволяет весть диалог на основе изображения и текста - Thinking-on-Image - рассуждение на уровне визуальных деталей HunyuanVision-1.5 демонстрирует продвинутые способности в задачах анализа, генерации и рассуждения. Работает шустро, русский понимает, но не без косяков. Модель доступна для использования через Tencent Cloud API и LMArena (Direct Chat). Полный технический отчёт и веса обещают к релизу позже в октябре. Ждемс. 🟠Попробовать: http://cloud.tencent.com/document/product/1729/104753 🟠Репозиторий: github.com/Tencent-Hunyuan/HunyuanVision 🟠Api: https://cloud.tencent.com/document/product/1729/104753 @ai_machinelearning_big_data #Tencent#llm#ml#Hunyuan#vlm
⚡️Релиз Hunyuan3D 3.0 Новая версия обеспечивает в 3 раза более высокую точность 3d-генерации , геометрическое разрешение 1536³ и 3.6 миллиарда вокселей для создания моделей с ультра-HD детализацией. Ключевые улучшения: ▪ Генерация лиц с реалистичными контурами и естественными позами, что делает модели максимально правдоподобными. ▪ Точная реконструкция сложных структур из изображений благодаря многоуровневой стратегии генерации, позволяющей улавливать скрытые детали. ▪ Повышенная чёткость и профессиональная детализация: улучшенное качество текстур и корректное выравнивание для визуализаций, близких к оригинальному дизайну. Доступен бесплатный доступ через Hunyuan 3D AI Engine (20 генераций). Решение интегрировано в Tencent Cloud API. Попробовать можно здесь: https://3d.hunyuan.tencent.com @ai_machinelearning_big_data #Hunyuan3D#Tencent#3Dmodeling#AI#UltraHD
🌟POINTS-Reader: компактная VLM для OCR без дистилляции и сложной обвязки. Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче OmniDocBench. POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст. Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию. Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer - NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности. Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему. Такая компактная архитектура превосходно показала себя на тестах. На комплексном OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами. Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей. На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных. Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре. 🟡Как в любом проекте - есть нюансы. Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки. ▶️ Запустить эту прелесть модель можно на Transformers или в SGLang. Поддержку vLLM обещают добавить. 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#VLM#POINTSReader#Tencent
Hashtags
⚡️ Tencent дропнули Hunyuan-MT — мощные open-source модели для перевода Что внутри: - Доступны модели Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B - Поддержка 33 языков - Chimera-7B — это первая в индустрии откртытая ансамблевая модель 🏆 Результаты: - 1-е место в 30 из 31 категорий на международном конкурсе WMT25 (Workshop on Machine Translation 2025, крупнейшая в мире конференция-соревнование по машинному переводу) - Hunyuan-MT-7B лидирует среди моделей своего размера 🟠Модели: https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597 🟠Репозиторий: https://github.com/Tencent-Hunyuan/Hunyuan-MT Demo: https://hunyuan.tencent.com/modelSquare/home/list @ai_machinelearning_big_data #AI#NLP#Translation#Tencent
Hashtags
🚀 Hunyuan-Large-Vision: новая мощная мультимодальная модель от Tencent 🔹 MoE-архитектура — 389B параметров (52B активных) для оптимального баланса мощности и эффективности. 🔹 Лидер в рейтингах — 1256 баллов в LMArena Vision, #1 в Китае, на уровне GPT-4.5 и Claude-4-Sonnet. 🔹 Глубокое понимание — визуальное рассуждение, анализ видео и 3D-пространства, 79,5 баллов в среднем по бенчмарку OpenCompass. 📌 Модель дополняет линейку Hunyuan-TurboS-Vision и Hunyuan-T1-Vision, доступных через Tencent Cloud для задач в самых разных отраслях. 🟢Попробовать: https://hunyuan.tencent.com/modelSquare/home/list?modelKey=VisionUnderstand 🟢Блог: https://vision.hunyuan.tencent.com 🟢API: https://cloud.tencent.com/document/product/1729/104753 @ai_machinelearning_big_data #AI#Multimodal#MachineLearning#MoE#VisionAI#Tencent#Hunyuan#LLM#ComputerVision#3DVision