小米开源OmniVoice多语言语音克隆TTS模型,号称搞定600余种语言
创始人
2026-05-07 18:28:05
0

IT之家 5 月 7 日消息,“小米技术”公众号今天下午宣布,小米 AI 实验室新一代 Kaldi 团队全新推出 OmniVoice,不仅在中英文场景达到顶尖性能,更在多语言任务中展现出超越商用系统的实力,是业内首个覆盖数百语种的语音克隆 TTS 模型。

官方表示,该模型在低资源小语种上具备极强的泛化能力,你想得到的所有语种几乎都可以用 OmniVoice 来合成。OmniVoice“最亮眼的突破”是其极简的模型架构。它仅用一个双向 Transformer 网络,就能直接实现文本到语音的转化,省去了多余的结构和环节:没有文本的单独建模,没有复杂的混合结构,也没有多层级的 token 预测,是目前最简单的非自回归 TTS 模型。

OmniVoice 的语音合成质量优于目前同类主流模型,同时,训练和推理速度极具优势,一天完成 10 万小时训练,用 PyTorch 推理就可以达到 40 倍实时,轻松适配各类应用场景。

在这种实力的背后,是两项“关键设计”:一是通过全码本随机掩蔽策略,显著提升模型的训练效率,进而全面提升模型能力;二是引入大语言模型作为模型的预训练参数,首次在非自回归 TTS 模型中有效利用大语言模型,让语音合成的可懂度大幅提升,解决“读不准”的问题。

IT之家从官方介绍获悉,在多语言测试中,即便仅基于开源数据训练,在 24 语种的测试中,其语音相似度和可懂度均超越多款商用系统;在 102 种语种的测试中,它的语音可懂度逼近甚至优于真实语音;即便对于训练数据不足 10 小时的小语种,OmniVoice 也能实现高质量的语音合成,大大降低了低资源语种的语音合成门槛。

该模型还具备多项实用功能:

  • 自定义音色设计:无需参考音频,只需描述音色属性(如性别、年龄、音调、方言、口音等),就能生成符合预期的音色,还支持耳语等特殊风格。
  • 带噪参考音频适配:针对实际使用中参考音频音质不佳的问题,OmniVoice 能自动过滤噪声,提取清晰的音色特征,即便在嘈杂环境下录制的音频,也能克隆出高质量语音。
  • 丰富语气表达:支持插入笑声、叹气等语气符号,让合成语音更有表现力,更贴近真人交流。
  • 发音精准纠正:针对中英文多音字、专有名词易读错的问题,用户可通过简单设置,纠正发音错误,提升语音合成的可靠性。

参考

  • 论文:https://arxiv.org/abs/2604.00688(了解技术细节)
  • Github:https://github.com/k2-fsa/OmniVoice(含完整训练、推理代码)
  • 语音样本展示:https://zhu-han.github.io/omnivoice/(直观感受语音合成效果)
  • Huggingface Demo Space:https://huggingface.co/spaces/k2-fsa/OmniVoice(无需代码一键试用)

相关内容

热门资讯

同比大增超240%!潍柴硬核护... 中新网山东新闻5月7日电 据潍柴消息,近日,在广东韶关,多台2200kW潍柴12M55数据中心备用电...
AI重塑民办教育:走到转型路口 在中国现代教育发展史上,鲜有一个阶段像当下这样,多重变量同时作用于同一体系之中。学龄人口结构的阶段性...
三星财报会议确认 AI 眼镜品... 编译/VR陀螺 4 月 30 日,三星公布了今年第一季度的财报。受内存和人工智能需求的推动,该公司芯...
投资家网蒋东文受邀央视频《赢在... 2026 年 4 月 27 日,中央广播电视总台央视频大型纪实创投节目《赢在 AI+》第二季专场路演...
微软开源迄今为止发现的最早DO... 微软在其开源博客宣布,在 86-DOS 1.00 诞生 45 周年之际,公开了 "迄今发现的最早 D...
小米开源OmniVoice多语... IT之家 5 月 7 日消息,“小米技术”公众号今天下午宣布,小米 AI 实验室新一代 Kaldi ...
源杰科技涨6.40%,开源证券... 今日源杰科技(688498)涨6.40%,收盘报1629.0元。 2026年4月28日,开源证券研究...
SoulX-LiveAct开源... 近日,Soul App AI团队(Soul AI Lab)正式发布开源模型SoulX-LiveAct...
一季度营收2.17亿元!仁东控... 作者:繁晟 4月29日晚,仁东控股(002647.SZ)发布2026年一季报,摘帽首季即迎业绩开门...