Post #806

@nnnoteee

记

Views99Post view count

PostedOct 3010/30/2025, 12:14 PM

Post content

#酷刚好和朋友聊到，顺便整理一下在这发感觉目前的语音模型到瓶颈了。GSV目前确实是音色与情感一致性最高的，但是业务上使用时自定义音色需求更多。也就是像index-tts2那样，底模能通过参数控制情感的能力。但是带情感的数据集应该很难找，现在声音克隆领域的难点就在情感方面了，高质量的标注数据一小时几百到几千，没几万小时数据也没用换而言之，如果爬虫能通过识别说话人情感真的可以爬一套房出来🤣