TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
Post content
#酷 刚好和朋友聊到,顺便整理一下在这发 感觉目前的语音模型到瓶颈了。GSV目前确实是音色与情感一致性最高的,但是业务上使用时自定义音色需求更多。也就是像index-tts2那样,底模能通过参数控制情感的能力。但是带情感的数据集应该很难找,现在声音克隆领域的难点就在情感方面了,高质量的标注数据一小时几百到几千,没几万小时数据也没用 换而言之,如果爬虫能通过识别说话人情感真的可以爬一套房出来🤣