Содержимое
✔️Microsoft представила 3 модели семейства MAI. Microsoft выпустила сразу 3 модели под брендом MAI: MAI-Transcribe-1 для распознавания речи, MAI-Voice-1 для синтеза голоса и MAI-Image-2 для генерации изображений по текстовому описанию. Все они позиционируются как решение для тех, кому нужны решения продакшен-уровня с конкурентной стоимостью инференса. 🟡MAI-Transcribe-1 Модель speech-to-text с высокоскоростной транскрибацией для 25 языков, включая русский. На бенчмарке FLEURS показывает лучший Word Error Rate среди конкурентов: среднее значение составляет 3,86%. Модель обходит Whisper во всех 25 языках, Gemini 3.1 Flash - в 22 из 25. Принимает форматы WAV, MP3 и FLAC. Real-time транскрибация, диаризация и context biasing пока недоступны - эти функции заявлены на будущее. Стоимость: $0,36 за час аудио. 🟡MAI-Voice-1 TTS-модель, генерирующая реалистичную речь с эмоциональной окраской, естественной интонацией и возможностью клонированием голоса по референсу. Доступ к клонированию требует одобрения Microsoft и загрузки записанного согласия владельца голоса. Заявленная скорость генерации - 1 минута аудио за одну секунду. Модель поддерживает управление эмоциями на уровне отдельных фраз через SSML и рассчитана на длинный контент: аудиокниги, подкасты, лекции. Пока работает только с английским, поддержка более 10 языков заявлена в перспективе. Доступна в 3-х регионах Azure: Central US, Japan West и Sweden Central. Стоимость: $22 за 1 млн. символов. 🟡MAI-Image-2 Диффузионная модель для генерации изображений по текстовому промпту, которую Microsoft обкатывала в бета-тестировании с 20 марта. Модель содержит от 10 до 50 млрд. параметров (без учета эмбеддингов), принимает контекст до 32K токенов и генерирует изображения с максимальным разрешением 1024×1024 пикселя. По внутренним оценкам через Elo-рейтинг MAI-Image-2 набирает 1190 ± 8 баллов против 1093 ± 4 у предшественницы MAI-Image-1, особенно сильно выступая в фотореалистичных и портретных категориях (1201 балл). На лидерборде ArenaAI модель вошла в топ-3. Стоимость: $5 за 1 млн. токенов текстового ввода, $33 за 1 млн. токенов на выходе (изображения). Все модели доступны через Microsoft Foundry. Попробовать их в интерактивной среде MAI Playground пока можно только из США. @ai_machinelearning_big_data #news#ai#ml