← Machinelearning
Machinelearning avatar

TGINSIGHT POST

Post #9881

@ai_machinelearning_big_data

Machinelearning

ΠŸΡ€ΠΎΡΠΌΠΎΡ‚Ρ€Ρ‹20,100ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ просмотров
ΠžΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½14 Π°ΠΏΡ€.14.04.2026, 13:49
Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅ поста

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅

🌟HY-Embodied-0.5: компактная модСль для Ρ€ΠΎΠ±ΠΎΡ‚ΠΎΠ² Π½Π° Mixture-of-Transformers. Tencent Robotics X ΠΈ Hunyuan Vision Π²Ρ‹Π»ΠΎΠΆΠΈΠ»ΠΈ вСса HY-Embodied-0.5 MoT-2B β€” младшСй ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½ΠΎΠ²ΠΎΠ³ΠΎ сСмСйства HY-Embodied-0.5 для Π²ΠΎΠΏΠ»ΠΎΡ‰Ρ‘Π½Π½ΠΎΠ³ΠΎ ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚Π°. БСмСйство позиционируСтся ΠΊΠ°ΠΊ ΠΊΠΎΠ³Π½ΠΈΡ‚ΠΈΠ²Π½ΠΎΠ΅ ядро для VLA-ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½ΠΎΠ²: модСль Π΄ΠΎΠ»ΠΆΠ½Π° Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒ Ρ€ΠΎΠ»ΡŒ Β«ΠΌΠΎΠ·Π³Π°Β», ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ ΠΊΠ°Π΄Ρ€Ρ‹ с ΠΊΠ°ΠΌΠ΅Ρ€ Ρ€ΠΎΠ±ΠΎΡ‚Π°, рассуТдаСт ΠΎ Ρ‚Ρ€Π΅Ρ…ΠΌΠ΅Ρ€Π½ΠΎΠΉ сцСнС ΠΈ Π²Ρ‹Π΄Π°Π΅Ρ‚ ΠΏΠ»Π°Π½ дСйствий ΠΈΡΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΌΡƒ ΠΌΠΎΠ΄ΡƒΠ»ΡŽ. Π€ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ MoT-2B содСрТит 4 ΠΌΠ»Ρ€Π΄ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π½ΠΎ Π½Π° инфСрСнсС активируСтся Ρ‚ΠΎΠ»ΡŒΠΊΠΎ 2,2 ΠΌΠ»Ρ€Π΄, Ρ‡Ρ‚ΠΎ Π΄Π°Π΅Ρ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ ΠΏΠ»ΠΎΡ‚Π½ΠΎΠΉ 2B-ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΡ€ΠΈ качСствС восприятия, сопоставимом с тяТёлыми VLM. Π’ основС Π»Π΅ΠΆΠΈΡ‚ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° Mixture-of-Transformers с Π»Π°Ρ‚Π΅Π½Ρ‚Π½Ρ‹ΠΌΠΈ Ρ‚ΠΎΠΊΠ΅Π½Π°ΠΌΠΈ ΠΈ модально-спСцифичными вычислСниями для Π·Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ Ρ‚Ρ€Π°ΠΊΡ‚Π°. Π‘ΡƒΡ‚ΡŒ MoT: ΠΏΠ΅Ρ€Π΅Π΄ ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Ρ‹ΠΌ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠΌ Tencent Π΄ΡƒΠ±Π»ΠΈΡ€ΡƒΠ΅Ρ‚ FFN- ΠΈ QKV-Π±Π»ΠΎΠΊΠΈ языковой ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ ΠΈΠ½ΠΈΡ†ΠΈΠ°Π»ΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ копию Π΅Ρ‘ ΠΆΠ΅ вСсами - Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ ΠΏΡ€ΠΎΠ³ΠΎΠ½ΡΡŽΡ‚ΡΡ Ρ‡Π΅Ρ€Π΅Π· Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½ΡƒΡŽ Π²Π΅Ρ‚ΠΊΡƒ, тСкстовыС Ρ‡Π΅Ρ€Π΅Π· ΡΠ·Ρ‹ΠΊΠΎΠ²ΡƒΡŽ. Помимо раздСлСния FFN ΠΈ QKV, Ρ€Π°Π·Π²Π΅Π΄Π΅Π½Ρ‹ ΠΈ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΡ‹ внимания: для Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π΄Π²ΡƒΠ½Π°ΠΏΡ€Π°Π²Π»Π΅Π½Π½ΠΎΠ΅ ΠΏΠΎΠ»Π½ΠΎΠ΅ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅, для языковых - causal-Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅. Π‘Π²ΡΠ·ΡƒΡŽΡ‰ΠΈΠΌ Π·Π²Π΅Π½ΠΎΠΌ слуТат ΠΎΠ±ΡƒΡ‡Π°Π΅ΠΌΡ‹Π΅ visual latent tokens, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΡ€ΠΈΠΏΠΈΡΡ‹Π²Π°ΡŽΡ‚ΡΡ Π² ΠΊΠΎΠ½Π΅Ρ† ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ элСмСнта (ΠΊΠ°Π΄Ρ€Π° ΠΈΠ»ΠΈ изобраТСния) ΠΈ пСрСносят Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½ΡƒΡŽ сСмантику Π² языковой контСкст. Π’ сСмСйствС Π±ΡƒΠ΄Π΅Ρ‚ ΡΡ‚Π°Ρ€ΡˆΠΈΠΉ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ - HY-Embodied-0.5 MoE-A32B Π½Π° 32 ΠΌΠ»Ρ€Π΄ Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹Ρ… ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². Он построСн ΡƒΠΆΠ΅ Π½Π° MoE ΠΈ, ΠΏΠΎ словам создатСлСй, Π²Ρ‹Ρ…ΠΎΠ΄ΠΈΡ‚ Π½Π° ΡƒΡ€ΠΎΠ²Π΅Π½ΡŒ Gemini 3.0 Pro. ВСса Ρ„Π»Π°Π³ΠΌΠ°Π½Π° Π½Π΅ ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Ρ‹, Π½ΠΎ ΠΈΠΌΠ΅Π½Π½ΠΎ эта модСль выступаСт ΡƒΡ‡ΠΈΡ‚Π΅Π»Π΅ΠΌ Π² дистилляции, пСрСдавая Π½Π°Π²Ρ‹ΠΊΠΈ рассуТдСния младшСй MoT-2B. πŸŸ‘Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π½Π° Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠ°Ρ… 🟒MoT-2B ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΡ‚ Qwen3-VL 2B/4B, RoboBrain 2.5 4B ΠΈ MiMo-Embodied 7B Π² Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ ΠΈΠ· 22 тСстов Π½Π° Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½ΠΎΠ΅ восприятиС ΠΈ пространствСнноС ΠΌΡ‹ΡˆΠ»Π΅Π½ΠΈΠ΅: 89,2 Π½Π° CV-Bench, 92,3 Π½Π° DA-2K, 54,5 Π½Π° ERQA ΠΈ 66,3 Π½Π° MindCube, Π³Π΄Π΅ блиТайший ΠΊΠΎΠ½ΠΊΡƒΡ€Π΅Π½Ρ‚ отстаёт ΠΏΠΎΡ‡Ρ‚ΠΈ Π²Π΄Π²ΠΎΠ΅. 🟠На Π·Π°Π΄Π°Ρ‡Π°Ρ… планирования (RoboBench-Planning, Ego-Plan2, RefSpatial-Bench) лидСрство остаётся Π·Π° RoboBrain ΠΈ MiMo-Embodied, здСсь Tencent ΠΏΠΎΠΊΠ° догоняСт. Для инфСрСнса рСкомСндуСтся GPU с ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ 16 Π“Π‘ VRAM. Π’ ΠΏΠ»Π°Π½Π°Ρ… - интСграция с vLLM ΠΈ Gradio-Π΄Π΅ΠΌΠΎ. πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Tencent HY Community License 🟑МодСль 🟑Arxiv πŸŸ‘Π’Π΅Ρ…ΠΎΡ‚Ρ‡Π΅Ρ‚ πŸ–₯GitHub @ai_machinelearning_big_data #AI#ML#Embodied#Robotics#Tencent#Hunyuan