Π‘ΠΎΠ΄Π΅ΡΠΆΠΈΠΌΠΎΠ΅
πHY-Embodied-0.5: ΠΊΠΎΠΌΠΏΠ°ΠΊΡΠ½Π°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ Π΄Π»Ρ ΡΠΎΠ±ΠΎΡΠΎΠ² Π½Π° Mixture-of-Transformers. Tencent Robotics X ΠΈ Hunyuan Vision Π²ΡΠ»ΠΎΠΆΠΈΠ»ΠΈ Π²Π΅ΡΠ° HY-Embodied-0.5 MoT-2B β ΠΌΠ»Π°Π΄ΡΠ΅ΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½ΠΎΠ²ΠΎΠ³ΠΎ ΡΠ΅ΠΌΠ΅ΠΉΡΡΠ²Π° HY-Embodied-0.5 Π΄Π»Ρ Π²ΠΎΠΏΠ»ΠΎΡΡΠ½Π½ΠΎΠ³ΠΎ ΠΈΠ½ΡΠ΅Π»Π»Π΅ΠΊΡΠ°. Π‘Π΅ΠΌΠ΅ΠΉΡΡΠ²ΠΎ ΠΏΠΎΠ·ΠΈΡΠΈΠΎΠ½ΠΈΡΡΠ΅ΡΡΡ ΠΊΠ°ΠΊ ΠΊΠΎΠ³Π½ΠΈΡΠΈΠ²Π½ΠΎΠ΅ ΡΠ΄ΡΠΎ Π΄Π»Ρ VLA-ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½ΠΎΠ²: ΠΌΠΎΠ΄Π΅Π»Ρ Π΄ΠΎΠ»ΠΆΠ½Π° Π²ΡΠΏΠΎΠ»Π½ΡΡΡ ΡΠΎΠ»Ρ Β«ΠΌΠΎΠ·Π³Π°Β», ΠΊΠΎΡΠΎΡΡΠΉ ΠΏΡΠΈΠ½ΠΈΠΌΠ°Π΅Ρ ΠΊΠ°Π΄ΡΡ Ρ ΠΊΠ°ΠΌΠ΅Ρ ΡΠΎΠ±ΠΎΡΠ°, ΡΠ°ΡΡΡΠΆΠ΄Π°Π΅Ρ ΠΎ ΡΡΠ΅Ρ ΠΌΠ΅ΡΠ½ΠΎΠΉ ΡΡΠ΅Π½Π΅ ΠΈ Π²ΡΠ΄Π°Π΅Ρ ΠΏΠ»Π°Π½ Π΄Π΅ΠΉΡΡΠ²ΠΈΠΉ ΠΈΡΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½ΠΎΠΌΡ ΠΌΠΎΠ΄ΡΠ»Ρ. Π€ΠΎΡΠΌΠ°Π»ΡΠ½ΠΎ MoT-2B ΡΠΎΠ΄Π΅ΡΠΆΠΈΡ 4 ΠΌΠ»ΡΠ΄ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ², Π½ΠΎ Π½Π° ΠΈΠ½ΡΠ΅ΡΠ΅Π½ΡΠ΅ Π°ΠΊΡΠΈΠ²ΠΈΡΡΠ΅ΡΡΡ ΡΠΎΠ»ΡΠΊΠΎ 2,2 ΠΌΠ»ΡΠ΄, ΡΡΠΎ Π΄Π°Π΅Ρ ΡΠΊΠΎΡΠΎΡΡΡ ΠΏΠ»ΠΎΡΠ½ΠΎΠΉ 2B-ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΡΠΈ ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ Π²ΠΎΡΠΏΡΠΈΡΡΠΈΡ, ΡΠΎΠΏΠΎΡΡΠ°Π²ΠΈΠΌΠΎΠΌ Ρ ΡΡΠΆΡΠ»ΡΠΌΠΈ VLM. Π ΠΎΡΠ½ΠΎΠ²Π΅ Π»Π΅ΠΆΠΈΡ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ° Mixture-of-Transformers Ρ Π»Π°ΡΠ΅Π½ΡΠ½ΡΠΌΠΈ ΡΠΎΠΊΠ΅Π½Π°ΠΌΠΈ ΠΈ ΠΌΠΎΠ΄Π°Π»ΡΠ½ΠΎ-ΡΠΏΠ΅ΡΠΈΡΠΈΡΠ½ΡΠΌΠΈ Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΡΠΌΠΈ Π΄Π»Ρ Π·ΡΠΈΡΠ΅Π»ΡΠ½ΠΎΠ³ΠΎ ΡΡΠ°ΠΊΡΠ°. Π‘ΡΡΡ MoT: ΠΏΠ΅ΡΠ΅Π΄ ΠΌΡΠ»ΡΡΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½ΡΠΌ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ΠΌ Tencent Π΄ΡΠ±Π»ΠΈΡΡΠ΅Ρ FFN- ΠΈ QKV-Π±Π»ΠΎΠΊΠΈ ΡΠ·ΡΠΊΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ ΠΈΠ½ΠΈΡΠΈΠ°Π»ΠΈΠ·ΠΈΡΡΠ΅Ρ ΠΊΠΎΠΏΠΈΡ Π΅Ρ ΠΆΠ΅ Π²Π΅ΡΠ°ΠΌΠΈ - Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΡΠ΅ ΡΠΎΠΊΠ΅Π½Ρ ΠΏΡΠΎΠ³ΠΎΠ½ΡΡΡΡΡ ΡΠ΅ΡΠ΅Π· Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΡΡ Π²Π΅ΡΠΊΡ, ΡΠ΅ΠΊΡΡΠΎΠ²ΡΠ΅ ΡΠ΅ΡΠ΅Π· ΡΠ·ΡΠΊΠΎΠ²ΡΡ. ΠΠΎΠΌΠΈΠΌΠΎ ΡΠ°Π·Π΄Π΅Π»Π΅Π½ΠΈΡ FFN ΠΈ QKV, ΡΠ°Π·Π²Π΅Π΄Π΅Π½Ρ ΠΈ ΠΌΠ΅Ρ Π°Π½ΠΈΠ·ΠΌΡ Π²Π½ΠΈΠΌΠ°Π½ΠΈΡ: Π΄Π»Ρ Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΡΡ ΡΠΎΠΊΠ΅Π½ΠΎΠ² ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡΡ Π΄Π²ΡΠ½Π°ΠΏΡΠ°Π²Π»Π΅Π½Π½ΠΎΠ΅ ΠΏΠΎΠ»Π½ΠΎΠ΅ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅, Π΄Π»Ρ ΡΠ·ΡΠΊΠΎΠ²ΡΡ - causal-Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅. Π‘Π²ΡΠ·ΡΡΡΠΈΠΌ Π·Π²Π΅Π½ΠΎΠΌ ΡΠ»ΡΠΆΠ°Ρ ΠΎΠ±ΡΡΠ°Π΅ΠΌΡΠ΅ visual latent tokens, ΠΊΠΎΡΠΎΡΡΠ΅ ΠΏΡΠΈΠΏΠΈΡΡΠ²Π°ΡΡΡΡ Π² ΠΊΠΎΠ½Π΅Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΠΎΠ³ΠΎ ΡΠ»Π΅ΠΌΠ΅Π½ΡΠ° (ΠΊΠ°Π΄ΡΠ° ΠΈΠ»ΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ) ΠΈ ΠΏΠ΅ΡΠ΅Π½ΠΎΡΡΡ Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΡΡ ΡΠ΅ΠΌΠ°Π½ΡΠΈΠΊΡ Π² ΡΠ·ΡΠΊΠΎΠ²ΠΎΠΉ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡ. Π ΡΠ΅ΠΌΠ΅ΠΉΡΡΠ²Π΅ Π±ΡΠ΄Π΅Ρ ΡΡΠ°ΡΡΠΈΠΉ Π²Π°ΡΠΈΠ°Π½Ρ - HY-Embodied-0.5 MoE-A32B Π½Π° 32 ΠΌΠ»ΡΠ΄ Π°ΠΊΡΠΈΠ²Π½ΡΡ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ². ΠΠ½ ΠΏΠΎΡΡΡΠΎΠ΅Π½ ΡΠΆΠ΅ Π½Π° MoE ΠΈ, ΠΏΠΎ ΡΠ»ΠΎΠ²Π°ΠΌ ΡΠΎΠ·Π΄Π°ΡΠ΅Π»Π΅ΠΉ, Π²ΡΡ ΠΎΠ΄ΠΈΡ Π½Π° ΡΡΠΎΠ²Π΅Π½Ρ Gemini 3.0 Pro. ΠΠ΅ΡΠ° ΡΠ»Π°Π³ΠΌΠ°Π½Π° Π½Π΅ ΠΎΠΏΡΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Ρ, Π½ΠΎ ΠΈΠΌΠ΅Π½Π½ΠΎ ΡΡΠ° ΠΌΠΎΠ΄Π΅Π»Ρ Π²ΡΡΡΡΠΏΠ°Π΅Ρ ΡΡΠΈΡΠ΅Π»Π΅ΠΌ Π² Π΄ΠΈΡΡΠΈΠ»Π»ΡΡΠΈΠΈ, ΠΏΠ΅ΡΠ΅Π΄Π°Π²Π°Ρ Π½Π°Π²ΡΠΊΠΈ ΡΠ°ΡΡΡΠΆΠ΄Π΅Π½ΠΈΡ ΠΌΠ»Π°Π΄ΡΠ΅ΠΉ MoT-2B. π‘Π Π΅Π·ΡΠ»ΡΡΠ°ΡΡ Π½Π° Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠ°Ρ π’MoT-2B ΠΎΠ±Ρ ΠΎΠ΄ΠΈΡ Qwen3-VL 2B/4B, RoboBrain 2.5 4B ΠΈ MiMo-Embodied 7B Π² Π±ΠΎΠ»ΡΡΠΈΠ½ΡΡΠ²Π΅ ΠΈΠ· 22 ΡΠ΅ΡΡΠΎΠ² Π½Π° Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΠΎΠ΅ Π²ΠΎΡΠΏΡΠΈΡΡΠΈΠ΅ ΠΈ ΠΏΡΠΎΡΡΡΠ°Π½ΡΡΠ²Π΅Π½Π½ΠΎΠ΅ ΠΌΡΡΠ»Π΅Π½ΠΈΠ΅: 89,2 Π½Π° CV-Bench, 92,3 Π½Π° DA-2K, 54,5 Π½Π° ERQA ΠΈ 66,3 Π½Π° MindCube, Π³Π΄Π΅ Π±Π»ΠΈΠΆΠ°ΠΉΡΠΈΠΉ ΠΊΠΎΠ½ΠΊΡΡΠ΅Π½Ρ ΠΎΡΡΡΠ°ΡΡ ΠΏΠΎΡΡΠΈ Π²Π΄Π²ΠΎΠ΅. π ΠΠ° Π·Π°Π΄Π°ΡΠ°Ρ ΠΏΠ»Π°Π½ΠΈΡΠΎΠ²Π°Π½ΠΈΡ (RoboBench-Planning, Ego-Plan2, RefSpatial-Bench) Π»ΠΈΠ΄Π΅ΡΡΡΠ²ΠΎ ΠΎΡΡΠ°ΡΡΡΡ Π·Π° RoboBrain ΠΈ MiMo-Embodied, Π·Π΄Π΅ΡΡ Tencent ΠΏΠΎΠΊΠ° Π΄ΠΎΠ³ΠΎΠ½ΡΠ΅Ρ. ΠΠ»Ρ ΠΈΠ½ΡΠ΅ΡΠ΅Π½ΡΠ° ΡΠ΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡΠ΅ΡΡΡ GPU Ρ ΠΌΠΈΠ½ΠΈΠΌΡΠΌ 16 ΠΠ VRAM. Π ΠΏΠ»Π°Π½Π°Ρ - ΠΈΠ½ΡΠ΅Π³ΡΠ°ΡΠΈΡ Ρ vLLM ΠΈ Gradio-Π΄Π΅ΠΌΠΎ. πΠΠΈΡΠ΅Π½Π·ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅: Tencent HY Community License π‘ΠΠΎΠ΄Π΅Π»Ρ π‘Arxiv π‘Π’Π΅Ρ ΠΎΡΡΠ΅Ρ π₯GitHub @ai_machinelearning_big_data #AI#ML#Embodied#Robotics#Tencent#Hunyuan