中国造播客语音合成模型开源可“零样本”生成川话、粤语等方言多轮对话丨预见·科技_日常知识

中国造播客语音合成模型开源可“零样本”生成川话、粤语等方言多轮对话丨预见·科技

创始人

2025-10-29 19:16:18

0次

封面新闻记者欧阳宏宇

具身智能进入千千万万家庭服务场景，让其能开口说方言是重要的一环。继通义、星火、混元等大模型之后，又有更多的国产语音合成模型开源，甚至可以零样板“凭空”生成方言风格语音。

记者10月29日获悉，播客语音合成模型SoulX-Podcast在近日开源。据悉，该模型是一款专为多人、多轮对话场景打造的语音生成模型，支持中、英、川、粤等多语种/方言与副语言风格，能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。

除了播客场景以外，该模型还可以在通用语音合成或克隆场景下也表现出色，带来更真实、更生动的语音体验。

据了解，SoulX-Podcast由Soul App AI团队（Soul AI Lab）开发，其技术原理借助LLM + Flow Matching的语音生成范式，由前者建模语义token，后者进一步建模声学特征。在基于LLM的语义token建模方面，其以 Qwen3-1.7B 作为基座模型，并基于原始文本模型参数进行初始化，以充分继承其语言理解能力。

基于这一技术策略后，该模型可以在零样本场景中，能高度还原参考语音的音色与风格，甚至更能根据对话语境灵活调节韵律与节奏；在多轮长时对话中，依然能保持声音的连贯与表达的真实。此外，SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成。

除中英文外，该模型还支持四川话、河南话、粤语等方言，甚至跨方言音色克隆，即可提供普通话的参考语音，生成带有四川话、河南话、粤语等方言特征的自然语音。

业内人士分析称，业界能够稳定支持多轮自然对话的开源播客生成模型相对较少，并且当场景从单人独白扩展到多人对话与长篇播客时也普遍面临问题。类似模型可赋予AI自主决策对话节奏的能力，实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

对此，其研发团队表示，未来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等核心交互能力的提升，并加速技术在多样化应用场景与整体生态中的融合落地，为用户带来更加沉浸、智能且富有温度的交互体验，持续提升个体的幸福感与归属感。

科技 Soul 粤语模型语音样本方言预见场景对话播客

上一篇：轻纱笼碧波枣庄庄里水库绘就深秋水墨画轻纱笼碧波枣庄庄里水库绘就深秋水墨画

下一篇：值得买科技10月AI进展分享会：AI重构兴趣内容与营销生态，驱动消费全链路升级

中国造播客语音合成模型开源可“零样本”生成川话、粤语等方言多轮对话丨预见·科技

相关内容

热门资讯

中国造播客语音合成模型开源 可“零样本”生成川话、粤语等方言多轮对话丨预见·科技

相关内容

热门资讯

中国造播客语音合成模型开源可“零样本”生成川话、粤语等方言多轮对话丨预见·科技