中国造播客语音合成模型开源 可“零样本”生成川话、粤语等方言多轮对话丨预见·科技
创始人
2025-10-29 19:16:18
0

封面新闻记者 欧阳宏宇

具身智能进入千千万万家庭服务场景,让其能开口说方言是重要的一环。继通义、星火、混元等大模型之后,又有更多的国产语音合成模型开源,甚至可以零样板“凭空”生成方言风格语音。

记者10月29日获悉,播客语音合成模型SoulX-Podcast在近日开源。据悉,该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。

除了播客场景以外,该模型还可以在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语音体验。

据了解,SoulX-Podcast由Soul App AI团队(Soul AI Lab)开发,其技术原理借助LLM + Flow Matching的语音生成范式,由前者建模语义token,后者进一步建模声学特征。在基于LLM的语义token建模方面,其以 Qwen3-1.7B 作为基座模型,并基于原始文本模型参数进行初始化,以充分继承其语言理解能力。

基于这一技术策略后,该模型可以在零样本场景中,能高度还原参考语音的音色与风格,甚至更能根据对话语境灵活调节韵律与节奏;在多轮长时对话中,依然能保持声音的连贯与表达的真实。此外,SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成。

除中英文外,该模型还支持四川话、河南话、粤语等方言,甚至跨方言音色克隆,即可提供普通话的参考语音,生成带有四川话、河南话、粤语等方言特征的自然语音。

业内人士分析称,业界能够稳定支持多轮自然对话的开源播客生成模型相对较少,并且当场景从单人独白扩展到多人对话与长篇播客时也普遍面临问题。类似模型可赋予AI自主决策对话节奏的能力,实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

对此,其研发团队表示,未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升,并加速技术在多样化应用场景与整体生态中的融合落地,为用户带来更加沉浸、智能且富有温度的交互体验,持续提升个体的幸福感与归属感。

相关内容

热门资讯

Galaxy S26系列发布:... 三星在今天的Unpacked发布会上推出了Galaxy S26系列手机,包括Galaxy S26 U...
OpenClaw修复ClawJ... OpenClaw已修复一个高严重性安全漏洞,该漏洞若被成功利用,可能允许恶意网站连接到本地运行的人工...
女子怀抱五个多月的婴儿在扶梯上... 据媒体报道,3月1日,云南一宝妈怀抱五个多月的婴儿站在扶梯上,身后另一名女子拉着孩子顺手将玩具车放上...
“养龙虾”,成为AI新团宠还不... 猎豹移动CEO傅盛卧床14天,靠OpenClaw搭建了8个AI Agent(智能体)替自己办公:除夕...
洋洋大观|与AI司机同行 纵横交错的都市街巷 繁忙作业的园区机场 一位位“AI司机”已悄然上岗 智能巴士、无人的士、智慧功能车...
火龙巡夜,花灯入梦:在韶关湾头... 3月1日,韶关浈江区十里亭镇湾头古村锣鼓喧天、灯火璀璨,2026年“香火龙”非遗大典如约启幕,吸引了...
以茶为媒 重庆巴南开启春日文旅... 央视网消息(记者 李航) 春风拂绿,茶香漫山。位于重庆市巴南区二圣镇的定心茶园,迎来了一年中最富诗意...
航拍绍兴长诏水库,在孤岛上发现... 在浙东绍兴新昌的群山之间,隐藏着一片唤作“沃洲”的开阔水域(即长诏水库),而这名字本身便带着几分上古...
中国旅行社协会倡议:建立24小... 3月2日,中国旅行社协会在《关于切实做好中东地区突发局势下旅游安全工作的倡议》中提出,务必在最短时间...