Содержимое
🚀 Вышла Chroma 1.0 - полностью открытая speech-to-speech модель с клонированием голоса Команда FlashLabs выпустила Chroma 1.0 - первую open-source модель, которая умеет переводить диалог “голос → голос” в реальном времени, причём с клонированием голоса. Главное: это не “распознавание + текст + озвучка”. Это end-to-end система, где разговор идёт напрямую голосом. Что обещают по характеристикам: - ⚡️ <150 мс задержка end-to-end (почти как живой звонок) - 🧬 качественный voice cloning по нескольким секундам аудио - 📈 схожесть голоса SIM = 0.817 (практически идентичный) - 🧠 reasoning всего на 4B параметров - 🔓 полностью открытые веса + код И приятный бонус: модель уже оптимизирована под SGLang (LMSYS), чтобы работала быстрее и дешевле в инференсе. Если это действительно так, то Chroma может стать реальной open-source альтернативой закрытым голосовым системам. Paper: https://modelscope.cn/papers/2601.11141 Model: https://modelscope.cn/models/FlashLabs/Chroma-4B Code: https://huggingface.co/FlashLabs/Chroma-4B @data_analysis_ml