中国造播客语音合成模型开源 可“零样本”生成川话、粤语等方言多轮对话丨预见·科技
创始人
2025-10-29 19:16:18
0

封面新闻记者 欧阳宏宇

具身智能进入千千万万家庭服务场景,让其能开口说方言是重要的一环。继通义、星火、混元等大模型之后,又有更多的国产语音合成模型开源,甚至可以零样板“凭空”生成方言风格语音。

记者10月29日获悉,播客语音合成模型SoulX-Podcast在近日开源。据悉,该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。

除了播客场景以外,该模型还可以在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语音体验。

据了解,SoulX-Podcast由Soul App AI团队(Soul AI Lab)开发,其技术原理借助LLM + Flow Matching的语音生成范式,由前者建模语义token,后者进一步建模声学特征。在基于LLM的语义token建模方面,其以 Qwen3-1.7B 作为基座模型,并基于原始文本模型参数进行初始化,以充分继承其语言理解能力。

基于这一技术策略后,该模型可以在零样本场景中,能高度还原参考语音的音色与风格,甚至更能根据对话语境灵活调节韵律与节奏;在多轮长时对话中,依然能保持声音的连贯与表达的真实。此外,SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成。

除中英文外,该模型还支持四川话、河南话、粤语等方言,甚至跨方言音色克隆,即可提供普通话的参考语音,生成带有四川话、河南话、粤语等方言特征的自然语音。

业内人士分析称,业界能够稳定支持多轮自然对话的开源播客生成模型相对较少,并且当场景从单人独白扩展到多人对话与长篇播客时也普遍面临问题。类似模型可赋予AI自主决策对话节奏的能力,实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

对此,其研发团队表示,未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升,并加速技术在多样化应用场景与整体生态中的融合落地,为用户带来更加沉浸、智能且富有温度的交互体验,持续提升个体的幸福感与归属感。

相关内容

热门资讯

目前出场的4名乒乓国手,全都蒙... 截至北京时间10月29日21时,参加WTT蒙彼利埃冠军赛的中国乒乓球手全都落败。 在当日20时50分...
从画里到眼前!杭州把“三江两岸... 东方网记者曹磊10月29日报道:从“纸上画卷”到“触手可及”!杭州把“三江两岸”搬来了上海。今晚,“...
在忻州古城解锁秋冬限定体验:围... 秋风渐起,秋雨飘落,时至农历九月初九,我们又迎来了重阳佳节古人把“九”定为阳数,九月九日,两九相重故...
AI如何驱动研发?诺奖得主们这... 一个零能耗的便携式取水装置,被放置在空气湿度不到15%,在极其炎热的美国沙漠“死亡谷”中,很快成功地...
带你感受立体山水!重庆发布五条... 当晨曦洒向嘉陵江畔,一座活力之城正在醒来。观音桥的巨屏亮起,咖啡香与潮流光影交织,江北用24小时的节...
黄仁勋谈AI新工业革命:开源至... 10月29日,英伟达(NVIDIA)创始人兼首席执行官黄仁勋在华盛顿举行的2025 GTC大会上发表...
可爱的乡村——村口树下时光慢 ... 在广西柳州市融水苗族自治县香粉乡雨卜村,游客在树旁的河里戏水(2025年7月20日摄)。  在广西的...
高通新发AI推理芯片,瞄准每年... 文 | 电厂,作者 | 董温淑,编辑 | 高宇雷 北京时间10月27日晚间,高通发布了AI200及...
值得买科技10月AI进展分享会... 10月29日,值得买科技(300785.SZ)10月AI进展分享会顺利举行。值得买科技CTO王云峰介...
中国造播客语音合成模型开源 可... 封面新闻记者 欧阳宏宇 具身智能进入千千万万家庭服务场景,让其能开口说方言是重要的一环。继通义、星火...