小米语音大模型开源,多项测试超越同参数量开源模型
创始人
2025-09-20 10:43:33
0

图片由AI生成

2025年9月19日,“非职业玩家”小米在AI领域扔出一颗“技术炸弹”——正式开源旗下首个原生端到端语音大模型Xiaomi-MiMo-Audio。这款能语音大模型不仅在国际权威测试中超越一众竞品,更重要的是,它首次实现仅用少量示例就能快速适应并完成之前没专门训练过的新语音相关任务。

要知道,现有的语音大模型对于标注数据存在严重依赖,接到新任务的时候很难进行举一反三。对此,Xiaomi-MiMo-Audio的解决方案是:采用patch编码器+大语言模型+patch 解码器的三段式结构,并在1亿多小时多源语料上完成的预训练,从而在突破7000亿token阈值后出现显著的“能力涌现”,并且还能具备无需任务特定微调的少样本学习能力。

MiMo-Audio在多项测试超越同参数量开源模型

小米官方博客介绍到,Xiaomi-MiMo-Audio拥有以下3个创新点:

  • 采用原生端到端架构实现语音信号到文本的直接映射,将指令响应速度提升4倍并降低系统复杂度,在嘈杂环境识别准确率提升20%以上。
  • 首次在语音领域实现基于ICL的少样本泛化能力,无需大规模标注数据即可通过少量示例快速适配新任务,在复杂推理任务中超越OpenAI同类模型。
  • 通过全链路开源提供从数据预处理到推理部署的完整工具链,以Apache 2.0协议授权彻底打破音频AI领域闭源垄断格局,上线首日获3000+开发者关注。

目前,小米已在Huggingface平台开源了该模型的预训练及指令微调版本,同时在Github平台开放Tokenizer模型代码。这种开放策略将大幅降低语音大模型的应用门槛,使中小企业无需构建专用数据集,就能快速开发定制化音频应用。例如在智能家居、车载语音交互等实际应用场景,可以预见的是,基于Xiaomi-MiMo-Audio的语音大模型将会显著提升人机语音交互体验,让你的智能设备“更懂人话”。

相关内容

热门资讯

图记|真武庙试开放 时隔90余... 近日,作为西城区第三批文物建筑活化利用项目核心之一的西海东沿真武庙试开放,并将于春节期间正式开放。这...
Phancy正式推出1300万... 近日,范式智能旗下消费电子品牌Phancy正式推出搭载1300万像素高清摄像头的AI智能眼镜,该产品...
野生冬樱花绽放美如画卷   近日,在云南省腾冲市曲石镇青岩子,高山峡谷间大片野生冬樱花进入一年一度的盛花期。成百上千株野生冬...
文库“换脸”,搜索“换命”,百... 文 | 奇点研究社,作者|孟雯 百度文库最近悄悄干了件大事。 其事业部下首推的AI原生应用橙篇,在...
原创 马... 盖世汽车讯 近期,在参加Peter Diamandis主持的《Moonshots》播客节目时,特斯拉...
港股AI应用板块午后回调走弱 港股AI应用板块午后回调走弱,智谱(02513.HK)跌超10%,MINIMAX-WP(00100....
亚马逊推出AI可穿戴设备Bee... 多知1月6日消息,亚马逊推出AI可穿戴设备Bee,称为个人生活AI助手,该设备通过实体按键控制录音,...
“文旅+交通”解锁广元曾家山冬... 曾媛 封面新闻记者 刘彦谷“出门即上车,下车就到滑雪场,再也不用为转车发愁了!”1月11日上午,广元...
“旅游+中医药”圈粉海外游客 ... 央视网消息:2025年9月,商务部等九部门联合印发《关于扩大服务消费的若干政策措施》,提出发挥中医药...
“爆火”的功劳到底归谁?万岁山... 作者 |闻旅 Kylin2026年1月8日,开封万岁山武侠城扔出一份新声明。没有废话,直接摊牌。这份...