Post #9779

@ai_machinelearning_big_data

Machinelearning

Просмотры25,000Количество просмотров

Опубликован30 мар.30.03.2026, 14:09

Содержимое поста

Содержимое

🌟Alibaba выпустили Qwen3.5-Omni Не мультимодальную сборку из отдельных компонентов, а единую нативную архитектуру, которая с первого слоя работает с текстом, изображением, аудио и видео одновременно. Главное, что отличает модель от конкурентов: Audio-Visual Vibe Coding. Описываешь голосом в камеру что нужно сделать, модель генерирует рабочий код сайта или игры. Плюс Script-Level Captioning, который превращает видео в полноценный сценарий с таймкодами и привязкой реплик к спикерам. • По бенчмаркам Qwen3.5-Omni-Plus бьёт Gemini 3.1 Pro в большинстве категорий. • По распознаванию речи WenetSpeech: 4.30/5.84 против 11.5/14.2. • По пониманию аудио VoiceBench: 93.1 против 88.9. • • По зрению MVBench: 79.0 против 74.1. По тексту MMLU-Redux: 94.2 против 95.9 (тут паритет). Итого 215 SOTA-результатов по подзадачам. Модель корректно реагирует на перебивание и не ломается от фонового шума), встроенный WebSearch и Function Calling, поддержка 74 языков в ASR и 29 в TTS. Доступна через Qwen Chat, HuggingFace и API Alibaba Cloud. Qwenchat: https://chat.qwen.ai Blog: https://qwen.ai/blog?id=qwen3.5-omni Hugging Face Offline Demo: https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Offline-Demo Hugging Face Online Demo:https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Online-Demo @ai_machinelearning_big_data #ai#ml#qwen