小米开源OmniVoice语音克隆TTS模型,号称覆盖600余种语言
创始人
2026-05-08 13:17:28
0

据IT之家,小米AI实验室新一代Kaldi团队推出OmniVoice语音克隆TTS模型。官方表示,这是业内首个覆盖数百语种的语音克隆TTS模型,在中英文场景达到顶尖性能,在多语言任务中展现出超越商用系统的实力。

该模型仅用一个双向Transformer网络就直接实现文本到语音转化,省去了文本单独建模、复杂混合结构及多层级token预测等环节,是目前最简单的非自回归TTS模型。其语音合成质量优于目前同类主流模型,训练和推理速度极具优势,一天可完成10万小时训练,用PyTorch推理可达到40倍实时。

OmniVoice有两项关键设计:一是通过全码本随机掩蔽策略提升训练效率;二是首次在非自回归TTS模型中有效利用大语言模型作为预训练参数,大幅提升语音合成的可懂度。

在多语言测试中,即便仅基于开源数据训练,该模型在24语种测试中的语音相似度和可懂度均超越多款商用系统;在102种语种测试中,其语音可懂度逼近甚至优于真实语音;对于训练数据不足10小时的小语种,也能实现高质量语音合成。

该模型还具备多项实用功能:无需参考音频,仅通过描述音色属性即可生成符合预期的音色;能自动过滤参考音频中的噪声,即便在嘈杂环境下录制的音频也能克隆出高质量语音;支持插入笑声、叹气等语气符号;用户可通过简单设置纠正中英文多音字及专有名词的发音错误。

相关内容

热门资讯

河南驻马店驿城区:深耕文旅供给... 大象新闻记者 黄向阳 梅靖翌(实习生)通讯员 关子涵陈华军2026年“五一”假期,河南省驻马店市驿城...
港股AI次新股走低 澜起科技跌... 截至发稿,澜起科技(06809.HK)跌5.48%,剑桥科技(06166.HK)跌3.80%,兆易创...
豆包分层付费背后:AI的商业逻... 近日,#豆包付费#的话题迅速登上微博热搜榜首,引发广泛关注和激烈讨论。根据页面信息,豆包将推出三个付...
A股AI应用股全线走强 A股市场 AI应用股全线走强,截至半日收盘, 酷特智能涨超15%, 贝瑞基因、 南威软件、 引力传媒...
红杉AI峰会说垂直AI会赢,金... 4月底,红杉资本AI Ascent 2026峰会在旧金山落幕。这是一场每年只开一次的闭门会——Eur...
“摄像头+AI”!新款Airp... 苹果“首款AI硬件”或许是一款“有视力”的耳机。 据彭博5月7日报道,苹果带摄像头的新款AirPod...
小米开源OmniVoice语音... 据IT之家,小米AI实验室新一代Kaldi团队推出OmniVoice语音克隆TTS模型。官方表示,这...
开源游戏引擎Godot已开发近... 作为知名开源游戏引擎,Godot官方正式公开了截至2026年2月的引擎使用数据,由于活跃的社区,开发...
据The Informatio... 据The Information:OpenAI与博通(AVGO.O)的AI芯片交易遭遇180亿美元融...
全球首份AI眼镜消费者心智洞察... 过去三年,全球AI眼镜市场快速增长,出货量呈现爆发增长趋势,从2023年的34万台激增至2025年的...