TGTGInsighttelegram intelligenceLIVE / telegram public index
← 记
记 avatar

TGINSIGHT POST

Post #778

@nnnoteee

Views220Post view count
PostedAug 1608/16/2025, 12:18 PM
Post content

Post content

#酷 - 推理时漏字多,就用低轮数的GPT模型 - 音色不像就换SoVITS模型 - 一般GPT模型训练10轮,SoVITS模型训练15轮,更多轮数提升不大,甚至更差 - 手动打标能提升效果 - 音频切分后手动去切完的文件夹看一下,是不是有超过10秒的音频,有超过10秒的音频会导致显存暴涨,全部低于10秒时显存占用8g左右,有超过10秒的显存占用16g占用,可以直接删掉或手动再单独切一下 - 降噪和人声分离不是必须的, 降噪会降低音量 - 训练音频总长10min就可以了,超过1小时过拟合了