节省近50%GPU计算!通义百聆开源新一代语音交互模型
创始人
2025-12-24 16:16:06
0

阿里通义百聆家族近日开源新一代语音交互模型Fun-Audio-Chat-8B。

新模型兼具高智商和高情商,具备出色的共情能力,与之对话,仿佛与懂你的人聊天。

在OpenAudioBench、VoiceBench、UltraEval-Audio、MMAU、MMSU、SpeechFunctionCall等权威基准测评中,Fun-Audio-Chat-8B斩获SOTA,超过同量级开源模型。

目前,百聆家族成员包括“会说话”的语音转文字模型Fun-ASR、“听得懂”的文字转语音模型Fun-CosyVoice3。

最新开源的模型Fun-Audio-Chat-8B主打语音对语音功能——“能听会说”。

用户可与模型音频对话,适用于语音聊天、情感陪伴、智能设备和语音客服等多种场景。

无任何情绪标签或提示词情况下,它能通过语义、语气、语速、停顿、重音等细微信号,感知对方的情绪状态,并给出恰到好处的关切、安慰或鼓励式回应。

此外,用户可尝试角色扮演,量身定制语音的情绪、说话风格、语速、高低音和音量等。

而模型能保持“原有智商”,主要得益于两个创新的音频模型训练模式。

一是采用 Core-Cocktail两阶段训练策略,先快速学新本事,再把“新本事”和“老底子”融合起来,为了避免学新东西把原来的能力忘掉(灾难性遗忘),第一阶段训练得到的模型和原始的纯文本大模型参数合并后,再进行微调。

二是与人类偏好对齐。通过多阶段和多任务的后训练设计,模型在真实对话场景中能更好地理解用户语音内容与情绪线索,作出更自然、更符合人类期望的回应。

值得注意的是,新模型通过压缩-自回归-解压缩的双分辨率端到端设计,音频帧率降到业界最低的5Hz,在保证语音质量的同时节省近50% GPU计算。

目前,用户可在魔搭社区、HuggingFace和GitHub下载模型自行体验。

相关内容

热门资讯

旅游热云南旅游市场迎来“开门红... 原标题:旅游热云南旅游市场迎来“开门红”春节假期,云南以“有一种叫云南的生活·我在云南过大年”为主题...
原创 A... 今天,我不得不对有一个新的网友其实是之前就在我文章:《“‘5年了,朱晓彤你还没找到工作吗?麻烦修改一...
全球AI投资热潮快速带动AID... 行业媒体报道,英国一家行业监管机构表示,英国境内新建数据中心项目所申请的电力总量,将超过该国当前的全...
假期结束精彩不停!北京怀柔元宵... 春节长假虽已结束,但北京怀柔区的浓浓年味与精彩活动仍在持续升温。2月24日,北京青年报记者从怀柔区获...
卢拉访韩结束后转发AI视频帖文... 【环球时报驻韩国特约记者 刘媛 环球时报特约记者 王逸】据韩联社报道,巴西总统卢拉24日结束了他在韩...
苹果收购单人AI初创公司inv... IT之家 2 月 25 日消息,据 MacRumors 报道,一份提交给欧盟的新文件显示,苹果公司已...
拉美电商巨头MercadoLi... 拉美电商巨头MercadoLibre(MELI.US):代理AI工具将有助于跨境销售和个人财务。
AI重构华尔街:摩根大通已启动... 摩根大通首席执行戴蒙(Jamie Dimon)表示,该行正在采取措施应对人工智能对员工带来的影响,同...
跨境火热、AI爆发:春节消费支... 2026年“史上最长春节假期”催热消费市场。近日,支付巨头微信、支付宝纷纷披露春节数据,数据显示,旅...
春节假期澳门迎接游客超155万... 本报澳门2月24日电 (记者富子梅)今年春节假期,澳门推出花车巡游、无人机烟花等一系列节庆盛事活动,...