TGTGInsighttelegram intelligenceLIVE / telegram public index
← AI News
AI News avatar

TGINSIGHT POST

Post #417

@aigcnote

AI News

Views3,920帖子阅读量
发布5月22日2023/05/22 22:39
Post content

帖子内容

Meta AI 新作品 - Massively Multilingual Speech - 为 1,100 多种语言推出语音转文本、文本转语音等功能,语言转文本的错误率只有 Whisper 的一半 - 为 4000 多种语言训练的语言识别模型,仅有6.1%的错误率 - 使用连接时序分类CTC的技术,而不是LLMs - 今天已经公开模型和代码,以方便其他研究者使用 - 在 wav2vec2.0 的基础上构建 - 使用了一个巧妙的宗教语言数据集: - 目前最大的语音数据集仅涵盖100种语言 - 但是圣经等宗教文本已经被翻译而且有公开的录音 - 我们创建了包含1100+语言的圣经新约数据集,每种语言32小时的数据 - 在纳入其他基督教读物的无标签录音后,将可用语言数量增加到4000+ - 录音以男性为主,但是模型的男女性声音表现同样出色 - 录音是宗教内容,但模型并没有过度偏向宗教语言(还是有一点) https://ai.facebook.com/blog/multilingual-model-speech-recognition/ https://ai.facebook.com/blog/wav2vec-20-learning-the-structure-of-speech-from-raw-audio/