← Machinelearning
Machinelearning avatar

TGINSIGHT POST

Post #9827

@ai_machinelearning_big_data

Machinelearning

ΠŸΡ€ΠΎΡΠΌΠΎΡ‚Ρ€Ρ‹20,100ΠšΠΎΠ»ΠΈΡ‡Π΅ΡΡ‚Π²ΠΎ просмотров
ΠžΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½7 Π°ΠΏΡ€.07.04.2026, 16:19
Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅ поста

Π‘ΠΎΠ΄Π΅Ρ€ΠΆΠΈΠΌΠΎΠ΅

🌟VoxCPM2: открытая 2B TTS-модСль Π½Π° 30 языках. VoxCPM2 - ΠΊΡ€ΡƒΠΏΠ½ΠΎΠ΅ ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠ΅ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΉ систСмы синтСза Ρ€Π΅Ρ‡ΠΈ VoxCPM. МодСль ΠΎΠ±ΡƒΡ‡Π΅Π½Π° Π½Π° Π±ΠΎΠ»Π΅Π΅ 2 ΠΌΠ»Π½. часов ΠΌΡƒΠ»ΡŒΡ‚ΠΈΡΠ·Ρ‹Ρ‡Π½Ρ‹Ρ… Π°ΡƒΠ΄ΠΈΠΎΠ΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ 30 языков, Π²ΠΊΠ»ΡŽΡ‡Π°Ρ русский, китайский, английский, японский, корСйский, арабский ΠΈ Ρ…ΠΈΠ½Π΄ΠΈ (плюс 9 Π΄ΠΈΠ°Π»Π΅ΠΊΡ‚ΠΎΠ² китайского). Π—Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΎΠΌ стоит OpenBMB, структура ΠΏΡ€ΠΈ УнивСрситСтС Π¦ΠΈΠ½Ρ…ΡƒΠ°, ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‰Π°Ρ Π°ΠΊΠ°Π΄Π΅ΠΌΠΈΡ‡Π΅ΡΠΊΡƒΡŽ Π»Π°Π±ΠΎΡ€Π°Ρ‚ΠΎΡ€ΠΈΡŽ THUNLP ΠΈ ΠΊΠΎΠΌΠΌΠ΅Ρ€Ρ‡Π΅ΡΠΊΡƒΡŽ компанию ModelBest. THUNLP - ΠΎΠ΄Π½Π° ΠΈΠ· ΡΠΈΠ»ΡŒΠ½Π΅ΠΉΡˆΠΈΡ… акадСмичСских Π³Ρ€ΡƒΠΏΠΏ ΠΏΠΎ LLM Π² Азии, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Ρ€ΡƒΠΊΠΎΠ²ΠΎΠ΄ΠΈΡ‚ Π»Π΅Π³Π΅Π½Π΄Π° китайского NLP, профСссор Maosong Sun. OpenBMB извСстна сСриями CPM, MiniCPM, AgentCPM ΠΈ Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ°ΠΌΠΈ BMTrain ΠΈ OpenPrompt. πŸŸ‘Π’ Π²Ρ‚ΠΎΡ€ΠΎΠΉ вСрсии VoxCPM ΠΎΡ‚ΠΊΠ°Π·Π°Π»ΠΈΡΡŒ ΠΎΡ‚ дискрСтной Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ Π°ΡƒΠ΄ΠΈΠΎ. Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ соврСмСнных TTS-систСм, VoxCPM2 Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π½Π°ΠΏΡ€ΡΠΌΡƒΡŽ с Π½Π΅ΠΏΡ€Π΅Ρ€Ρ‹Π²Π½Ρ‹ΠΌΠΈ прСдставлСниями Π² Π»Π°Ρ‚Π΅Π½Ρ‚Π½ΠΎΠΌ пространствС AudioVAE V2. Пайплайн состоит ΠΈΠ· 4 стадий: LocEnc, TSLM, RALM ΠΈ LocDiT. На Π²Ρ‹Ρ…ΠΎΠ΄Π΅ - Π°ΡƒΠ΄ΠΈΠΎ с частотой 48 ΠΊΠ“Ρ† студийного качСства: асиммСтричная Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° AudioVAE V2 ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ рСфСрСнс Π½Π° 16 ΠΊΠ“Ρ† ΠΈ ΠΏΠΎΠ²Ρ‹ΡˆΠ°Π΅Ρ‚ Ρ€Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ Π±Π΅Π· внСшнСго апсСмплСра. 🟑ОбновлСниС Π΄ΠΎΠ±Π°Π²ΠΈΠ»ΠΎ 2 Π½ΠΎΠ²Ρ‹Π΅ возмоТности. 🟒Voice Design создаСт голос ΠΏΠΎ тСкстовому описанию: достаточно ΡƒΠΊΠ°Π·Π°Ρ‚ΡŒ ΠΏΠΎΠ», возраст, Ρ‚Π΅ΠΌΠ±Ρ€, ΡΠΌΠΎΡ†ΠΈΡŽ ΠΈ Ρ‚Π΅ΠΌΠΏ - Π½ΠΈΠΊΠ°ΠΊΠΎΠ³ΠΎ рСфСрСнсного Π°ΡƒΠ΄ΠΈΠΎ Π½Π΅ Π½ΡƒΠΆΠ½ΠΎ. 🟒Controllable Voice Cloning ΠΊΠ»ΠΎΠ½ΠΈΡ€ΡƒΠ΅Ρ‚ голос ΠΏΠΎ ΠΊΠΎΡ€ΠΎΡ‚ΠΊΠΎΠΌΡƒ Π°ΡƒΠ΄ΠΈΠΎΡ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚Ρƒ ΠΈ Π² довСсок позволяСт ΡƒΠΏΡ€Π°Π²Π»ΡΡ‚ΡŒ стилСм, эмоциями ΠΈ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ Ρ€Π΅Ρ‡ΠΈ, сохраняя ΠΎΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½Ρ‹ΠΉ Ρ‚Π΅ΠΌΠ±Ρ€. Из вСрсии 1.5 ΠΏΠ΅Ρ€Π΅ΡˆΠ΅Π» Ρ€Π΅ΠΆΠΈΠΌ Ultimate Cloning: Ссли ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‚ΡŒ вмСстС с рСфСрСнсом Π΅Π³ΠΎ Ρ‚ΠΎΡ‡Π½Ρ‹ΠΉ транскрипт, модСль воспроизводит Ρ€ΠΈΡ‚ΠΌ, ΠΈΠ½Ρ‚ΠΎΠ½Π°Ρ†ΠΈΠΈ ΠΈ ΠΌΠ°Π½Π΅Ρ€Ρƒ Ρ€Π΅Ρ‡ΠΈ. πŸŸ‘Π’Π΅ΡΡ‚Ρ‹ На Seed-TTS-eval модСль ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ WER 1.84% Π½Π° английском ΠΈ CER 0.97% Π½Π° китайском ΠΏΡ€ΠΈ сходствС голоса (SIM) 75.3% ΠΈ 79.5% соотвСтствСнно. На ΠΌΡƒΠ»ΡŒΡ‚ΠΈΡΠ·Ρ‹Ρ‡Π½ΠΎΠΌ Minimax-MLS-test систСма Π»ΠΈΠ΄ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΏΠΎ SIM Π² ΠΏΠΎΠ΄Π°Π²Π»ΡΡŽΡ‰Π΅ΠΌ Π±ΠΎΠ»ΡŒΡˆΠΈΠ½ΡΡ‚Π²Π΅ ΠΈΠ· 24 языков, опСрСТая Minimax, ElevenLabs, FishAudio S2 ΠΈ Qwen3-TTS. Π’ Π·Π°Π΄Π°Ρ‡Π΅ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ голоса ΠΏΠΎ описанию модСль Π½Π°Π±ΠΈΡ€Π°Π΅Ρ‚ Π»ΡƒΡ‡ΡˆΠΈΠ΅ Π±Π°Π»Π»Ρ‹ срСди open-source Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ Π½Π° InstructTTSEval Π² английском языкС. 🟑МодСль потрСбляСт ΠΎΠΊΠΎΠ»ΠΎ 8 Π“Π‘ VRAM. Π‘ΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ инфСрСнса ΠΏΠΎ ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΡŽ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ, Π·Π°Ρ‚Ρ€Π°Ρ‡Π΅Π½Π½ΠΎΠ³ΠΎ модСлью Π½Π° Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ Π°ΡƒΠ΄ΠΈΠΎ ΠΊ Π΄Π»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ самого Π°ΡƒΠ΄ΠΈΠΎ - ΠΎΠΊΠΎΠ»ΠΎ 0.3 Π½Π° NVIDIA RTX 4090. На Π΄Π²ΠΈΠΆΠΊΠ΅ Nano-vLLM этот ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒ сниТаСтся Π΄ΠΎ 0.13 (ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΈΡ‚ для стриминга Π² Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ). Π•ΡΡ‚ΡŒ скрипты ΠΈ Π³Π°ΠΉΠ΄ для SFT (добавлСния Π½ΠΎΠ²ΠΎΠ³ΠΎ языка ΠΈΠ»ΠΈ Π΄ΠΎΠΌΠ΅Π½Π°) ΠΈΠ»ΠΈ LoRA для Π³Π»ΡƒΠ±ΠΎΠΊΠΎΠΉ ΠΈΠΌΠΈΡ‚Π°Ρ†ΠΈΠΈ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΠΎΠ³ΠΎ спикСра. LoRA ΠΏΠΎΡ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ 5–10 ΠΌΠΈΠ½ΡƒΡ‚ Π°ΡƒΠ΄ΠΈΠΎ ΠΈ 20 Π“Π‘ VRAM. ΠŸΡ€ΠΈΠΌΠ΅Ρ€ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Π°ΡƒΠ΄ΠΈΠΎ Π½Π° Π΄Π΅ΠΌΠΎ-спСйсС HF Π±Π΅Π· клонирования ΠΈ постобработкС - Π² Π²ΠΈΠ΄Π΅ΠΎΡ„Π°ΠΉΠ»Π΅ поста. πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License. πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° πŸŸ‘Π”ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ†ΠΈΡ 🟑МодСль 🟑Demo πŸ–₯GitHub @ai_machinelearning_big_data #AI#ML#TTS#VoxCPM2#OpenBNB