Π‘ΠΎΠ΄Π΅ΡΠΆΠΈΠΌΠΎΠ΅
πVoxCPM2: ΠΎΡΠΊΡΡΡΠ°Ρ 2B TTS-ΠΌΠΎΠ΄Π΅Π»Ρ Π½Π° 30 ΡΠ·ΡΠΊΠ°Ρ . VoxCPM2 - ΠΊΡΡΠΏΠ½ΠΎΠ΅ ΠΎΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠ΅ ΠΎΡΠΊΡΡΡΠΎΠΉ ΡΠΈΡΡΠ΅ΠΌΡ ΡΠΈΠ½ΡΠ΅Π·Π° ΡΠ΅ΡΠΈ VoxCPM. ΠΠΎΠ΄Π΅Π»Ρ ΠΎΠ±ΡΡΠ΅Π½Π° Π½Π° Π±ΠΎΠ»Π΅Π΅ 2 ΠΌΠ»Π½. ΡΠ°ΡΠΎΠ² ΠΌΡΠ»ΡΡΠΈΡΠ·ΡΡΠ½ΡΡ Π°ΡΠ΄ΠΈΠΎΠ΄Π°Π½Π½ΡΡ ΠΈ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΈΠ²Π°Π΅Ρ 30 ΡΠ·ΡΠΊΠΎΠ², Π²ΠΊΠ»ΡΡΠ°Ρ ΡΡΡΡΠΊΠΈΠΉ, ΠΊΠΈΡΠ°ΠΉΡΠΊΠΈΠΉ, Π°Π½Π³Π»ΠΈΠΉΡΠΊΠΈΠΉ, ΡΠΏΠΎΠ½ΡΠΊΠΈΠΉ, ΠΊΠΎΡΠ΅ΠΉΡΠΊΠΈΠΉ, Π°ΡΠ°Π±ΡΠΊΠΈΠΉ ΠΈ Ρ ΠΈΠ½Π΄ΠΈ (ΠΏΠ»ΡΡ 9 Π΄ΠΈΠ°Π»Π΅ΠΊΡΠΎΠ² ΠΊΠΈΡΠ°ΠΉΡΠΊΠΎΠ³ΠΎ). ΠΠ° ΠΏΡΠΎΠ΅ΠΊΡΠΎΠΌ ΡΡΠΎΠΈΡ OpenBMB, ΡΡΡΡΠΊΡΡΡΠ° ΠΏΡΠΈ Π£Π½ΠΈΠ²Π΅ΡΡΠΈΡΠ΅ΡΠ΅ Π¦ΠΈΠ½Ρ ΡΠ°, ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΡΡΡΠ°Ρ Π°ΠΊΠ°Π΄Π΅ΠΌΠΈΡΠ΅ΡΠΊΡΡ Π»Π°Π±ΠΎΡΠ°ΡΠΎΡΠΈΡ THUNLP ΠΈ ΠΊΠΎΠΌΠΌΠ΅ΡΡΠ΅ΡΠΊΡΡ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΡ ModelBest. THUNLP - ΠΎΠ΄Π½Π° ΠΈΠ· ΡΠΈΠ»ΡΠ½Π΅ΠΉΡΠΈΡ Π°ΠΊΠ°Π΄Π΅ΠΌΠΈΡΠ΅ΡΠΊΠΈΡ Π³ΡΡΠΏΠΏ ΠΏΠΎ LLM Π² ΠΠ·ΠΈΠΈ, ΠΊΠΎΡΠΎΡΠΎΠΉ ΡΡΠΊΠΎΠ²ΠΎΠ΄ΠΈΡ Π»Π΅Π³Π΅Π½Π΄Π° ΠΊΠΈΡΠ°ΠΉΡΠΊΠΎΠ³ΠΎ NLP, ΠΏΡΠΎΡΠ΅ΡΡΠΎΡ Maosong Sun. OpenBMB ΠΈΠ·Π²Π΅ΡΡΠ½Π° ΡΠ΅ΡΠΈΡΠΌΠΈ CPM, MiniCPM, AgentCPM ΠΈ ΡΡΠ΅ΠΉΠΌΠ²ΠΎΡΠΊΠ°ΠΌΠΈ BMTrain ΠΈ OpenPrompt. π‘Π Π²ΡΠΎΡΠΎΠΉ Π²Π΅ΡΡΠΈΠΈ VoxCPM ΠΎΡΠΊΠ°Π·Π°Π»ΠΈΡΡ ΠΎΡ Π΄ΠΈΡΠΊΡΠ΅ΡΠ½ΠΎΠΉ ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΈΠΈ Π°ΡΠ΄ΠΈΠΎ. Π ΠΎΡΠ»ΠΈΡΠΈΠ΅ ΡΠΎΠ²ΡΠ΅ΠΌΠ΅Π½Π½ΡΡ TTS-ΡΠΈΡΡΠ΅ΠΌ, VoxCPM2 ΡΠ°Π±ΠΎΡΠ°Π΅Ρ Π½Π°ΠΏΡΡΠΌΡΡ Ρ Π½Π΅ΠΏΡΠ΅ΡΡΠ²Π½ΡΠΌΠΈ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ΠΈΡΠΌΠΈ Π² Π»Π°ΡΠ΅Π½ΡΠ½ΠΎΠΌ ΠΏΡΠΎΡΡΡΠ°Π½ΡΡΠ²Π΅ AudioVAE V2. ΠΠ°ΠΉΠΏΠ»Π°ΠΉΠ½ ΡΠΎΡΡΠΎΠΈΡ ΠΈΠ· 4 ΡΡΠ°Π΄ΠΈΠΉ: LocEnc, TSLM, RALM ΠΈ LocDiT. ΠΠ° Π²ΡΡ ΠΎΠ΄Π΅ - Π°ΡΠ΄ΠΈΠΎ Ρ ΡΠ°ΡΡΠΎΡΠΎΠΉ 48 ΠΊΠΡ ΡΡΡΠ΄ΠΈΠΉΠ½ΠΎΠ³ΠΎ ΠΊΠ°ΡΠ΅ΡΡΠ²Π°: Π°ΡΠΈΠΌΠΌΠ΅ΡΡΠΈΡΠ½Π°Ρ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ° AudioVAE V2 ΠΏΡΠΈΠ½ΠΈΠΌΠ°Π΅Ρ ΡΠ΅ΡΠ΅ΡΠ΅Π½Ρ Π½Π° 16 ΠΊΠΡ ΠΈ ΠΏΠΎΠ²ΡΡΠ°Π΅Ρ ΡΠ°Π·ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ Π±Π΅Π· Π²Π½Π΅ΡΠ½Π΅Π³ΠΎ Π°ΠΏΡΠ΅ΠΌΠΏΠ»Π΅ΡΠ°. π‘ΠΠ±Π½ΠΎΠ²Π»Π΅Π½ΠΈΠ΅ Π΄ΠΎΠ±Π°Π²ΠΈΠ»ΠΎ 2 Π½ΠΎΠ²ΡΠ΅ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠΈ. π’Voice Design ΡΠΎΠ·Π΄Π°Π΅Ρ Π³ΠΎΠ»ΠΎΡ ΠΏΠΎ ΡΠ΅ΠΊΡΡΠΎΠ²ΠΎΠΌΡ ΠΎΠΏΠΈΡΠ°Π½ΠΈΡ: Π΄ΠΎΡΡΠ°ΡΠΎΡΠ½ΠΎ ΡΠΊΠ°Π·Π°ΡΡ ΠΏΠΎΠ», Π²ΠΎΠ·ΡΠ°ΡΡ, ΡΠ΅ΠΌΠ±Ρ, ΡΠΌΠΎΡΠΈΡ ΠΈ ΡΠ΅ΠΌΠΏ - Π½ΠΈΠΊΠ°ΠΊΠΎΠ³ΠΎ ΡΠ΅ΡΠ΅ΡΠ΅Π½ΡΠ½ΠΎΠ³ΠΎ Π°ΡΠ΄ΠΈΠΎ Π½Π΅ Π½ΡΠΆΠ½ΠΎ. π’Controllable Voice Cloning ΠΊΠ»ΠΎΠ½ΠΈΡΡΠ΅Ρ Π³ΠΎΠ»ΠΎΡ ΠΏΠΎ ΠΊΠΎΡΠΎΡΠΊΠΎΠΌΡ Π°ΡΠ΄ΠΈΠΎΡΡΠ°Π³ΠΌΠ΅Π½ΡΡ ΠΈ Π² Π΄ΠΎΠ²Π΅ΡΠΎΠΊ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΡΠΏΡΠ°Π²Π»ΡΡΡ ΡΡΠΈΠ»Π΅ΠΌ, ΡΠΌΠΎΡΠΈΡΠΌΠΈ ΠΈ ΡΠΊΠΎΡΠΎΡΡΡΡ ΡΠ΅ΡΠΈ, ΡΠΎΡ ΡΠ°Π½ΡΡ ΠΎΡΠΈΠ³ΠΈΠ½Π°Π»ΡΠ½ΡΠΉ ΡΠ΅ΠΌΠ±Ρ. ΠΠ· Π²Π΅ΡΡΠΈΠΈ 1.5 ΠΏΠ΅ΡΠ΅ΡΠ΅Π» ΡΠ΅ΠΆΠΈΠΌ Ultimate Cloning: Π΅ΡΠ»ΠΈ ΠΏΠ΅ΡΠ΅Π΄Π°ΡΡ Π²ΠΌΠ΅ΡΡΠ΅ Ρ ΡΠ΅ΡΠ΅ΡΠ΅Π½ΡΠΎΠΌ Π΅Π³ΠΎ ΡΠΎΡΠ½ΡΠΉ ΡΡΠ°Π½ΡΠΊΡΠΈΠΏΡ, ΠΌΠΎΠ΄Π΅Π»Ρ Π²ΠΎΡΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ ΡΠΈΡΠΌ, ΠΈΠ½ΡΠΎΠ½Π°ΡΠΈΠΈ ΠΈ ΠΌΠ°Π½Π΅ΡΡ ΡΠ΅ΡΠΈ. π‘Π’Π΅ΡΡΡ ΠΠ° Seed-TTS-eval ΠΌΠΎΠ΄Π΅Π»Ρ ΠΏΠΎΠΊΠ°Π·ΡΠ²Π°Π΅Ρ WER 1.84% Π½Π° Π°Π½Π³Π»ΠΈΠΉΡΠΊΠΎΠΌ ΠΈ CER 0.97% Π½Π° ΠΊΠΈΡΠ°ΠΉΡΠΊΠΎΠΌ ΠΏΡΠΈ ΡΡ ΠΎΠ΄ΡΡΠ²Π΅ Π³ΠΎΠ»ΠΎΡΠ° (SIM) 75.3% ΠΈ 79.5% ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²Π΅Π½Π½ΠΎ. ΠΠ° ΠΌΡΠ»ΡΡΠΈΡΠ·ΡΡΠ½ΠΎΠΌ Minimax-MLS-test ΡΠΈΡΡΠ΅ΠΌΠ° Π»ΠΈΠ΄ΠΈΡΡΠ΅Ρ ΠΏΠΎ SIM Π² ΠΏΠΎΠ΄Π°Π²Π»ΡΡΡΠ΅ΠΌ Π±ΠΎΠ»ΡΡΠΈΠ½ΡΡΠ²Π΅ ΠΈΠ· 24 ΡΠ·ΡΠΊΠΎΠ², ΠΎΠΏΠ΅ΡΠ΅ΠΆΠ°Ρ Minimax, ElevenLabs, FishAudio S2 ΠΈ Qwen3-TTS. Π Π·Π°Π΄Π°ΡΠ΅ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ Π³ΠΎΠ»ΠΎΡΠ° ΠΏΠΎ ΠΎΠΏΠΈΡΠ°Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»Ρ Π½Π°Π±ΠΈΡΠ°Π΅Ρ Π»ΡΡΡΠΈΠ΅ Π±Π°Π»Π»Ρ ΡΡΠ΅Π΄ΠΈ open-source ΡΠ΅ΡΠ΅Π½ΠΈΠΉ Π½Π° InstructTTSEval Π² Π°Π½Π³Π»ΠΈΠΉΡΠΊΠΎΠΌ ΡΠ·ΡΠΊΠ΅. π‘ΠΠΎΠ΄Π΅Π»Ρ ΠΏΠΎΡΡΠ΅Π±Π»ΡΠ΅Ρ ΠΎΠΊΠΎΠ»ΠΎ 8 ΠΠ VRAM. Π‘ΠΊΠΎΡΠΎΡΡΡ ΠΈΠ½ΡΠ΅ΡΠ΅Π½ΡΠ° ΠΏΠΎ ΡΠΎΠΎΡΠ½ΠΎΡΠ΅Π½ΠΈΡ Π²ΡΠ΅ΠΌΠ΅Π½ΠΈ, Π·Π°ΡΡΠ°ΡΠ΅Π½Π½ΠΎΠ³ΠΎ ΠΌΠΎΠ΄Π΅Π»ΡΡ Π½Π° Π³Π΅Π½Π΅ΡΠ°ΡΠΈΡ Π°ΡΠ΄ΠΈΠΎ ΠΊ Π΄Π»ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ ΡΠ°ΠΌΠΎΠ³ΠΎ Π°ΡΠ΄ΠΈΠΎ - ΠΎΠΊΠΎΠ»ΠΎ 0.3 Π½Π° NVIDIA RTX 4090. ΠΠ° Π΄Π²ΠΈΠΆΠΊΠ΅ Nano-vLLM ΡΡΠΎΡ ΠΏΠΎΠΊΠ°Π·Π°ΡΠ΅Π»Ρ ΡΠ½ΠΈΠΆΠ°Π΅ΡΡΡ Π΄ΠΎ 0.13 (ΠΏΠΎΠ΄Ρ ΠΎΠ΄ΠΈΡ Π΄Π»Ρ ΡΡΡΠΈΠΌΠΈΠ½Π³Π° Π² ΡΠ΅Π°Π»ΡΠ½ΠΎΠΌ Π²ΡΠ΅ΠΌΠ΅Π½ΠΈ). ΠΡΡΡ ΡΠΊΡΠΈΠΏΡΡ ΠΈ Π³Π°ΠΉΠ΄ Π΄Π»Ρ SFT (Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ΠΈΡ Π½ΠΎΠ²ΠΎΠ³ΠΎ ΡΠ·ΡΠΊΠ° ΠΈΠ»ΠΈ Π΄ΠΎΠΌΠ΅Π½Π°) ΠΈΠ»ΠΈ LoRA Π΄Π»Ρ Π³Π»ΡΠ±ΠΎΠΊΠΎΠΉ ΠΈΠΌΠΈΡΠ°ΡΠΈΠΈ ΠΊΠΎΠ½ΠΊΡΠ΅ΡΠ½ΠΎΠ³ΠΎ ΡΠΏΠΈΠΊΠ΅ΡΠ°. LoRA ΠΏΠΎΡΡΠ΅Π±ΡΠ΅Ρ 5β10 ΠΌΠΈΠ½ΡΡ Π°ΡΠ΄ΠΈΠΎ ΠΈ 20 ΠΠ VRAM. ΠΡΠΈΠΌΠ΅Ρ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ Π°ΡΠ΄ΠΈΠΎ Π½Π° Π΄Π΅ΠΌΠΎ-ΡΠΏΠ΅ΠΉΡΠ΅ HF Π±Π΅Π· ΠΊΠ»ΠΎΠ½ΠΈΡΠΎΠ²Π°Π½ΠΈΡ ΠΈ ΠΏΠΎΡΡΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ΅ - Π² Π²ΠΈΠ΄Π΅ΠΎΡΠ°ΠΉΠ»Π΅ ΠΏΠΎΡΡΠ°. πΠΠΈΡΠ΅Π½Π·ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License. π‘Π‘ΡΡΠ°Π½ΠΈΡΠ° ΠΏΡΠΎΠ΅ΠΊΡΠ° π‘ΠΠΎΠΊΡΠΌΠ΅Π½ΡΠ°ΡΠΈΡ π‘ΠΠΎΠ΄Π΅Π»Ρ π‘Demo π₯GitHub @ai_machinelearning_big_data #AI#ML#TTS#VoxCPM2#OpenBNB