小米语音大模型开源,多项测试超越同参数量开源模型
创始人
2025-09-20 10:43:33
0

图片由AI生成

2025年9月19日,“非职业玩家”小米在AI领域扔出一颗“技术炸弹”——正式开源旗下首个原生端到端语音大模型Xiaomi-MiMo-Audio。这款能语音大模型不仅在国际权威测试中超越一众竞品,更重要的是,它首次实现仅用少量示例就能快速适应并完成之前没专门训练过的新语音相关任务。

要知道,现有的语音大模型对于标注数据存在严重依赖,接到新任务的时候很难进行举一反三。对此,Xiaomi-MiMo-Audio的解决方案是:采用patch编码器+大语言模型+patch 解码器的三段式结构,并在1亿多小时多源语料上完成的预训练,从而在突破7000亿token阈值后出现显著的“能力涌现”,并且还能具备无需任务特定微调的少样本学习能力。

MiMo-Audio在多项测试超越同参数量开源模型

小米官方博客介绍到,Xiaomi-MiMo-Audio拥有以下3个创新点:

  • 采用原生端到端架构实现语音信号到文本的直接映射,将指令响应速度提升4倍并降低系统复杂度,在嘈杂环境识别准确率提升20%以上。
  • 首次在语音领域实现基于ICL的少样本泛化能力,无需大规模标注数据即可通过少量示例快速适配新任务,在复杂推理任务中超越OpenAI同类模型。
  • 通过全链路开源提供从数据预处理到推理部署的完整工具链,以Apache 2.0协议授权彻底打破音频AI领域闭源垄断格局,上线首日获3000+开发者关注。

目前,小米已在Huggingface平台开源了该模型的预训练及指令微调版本,同时在Github平台开放Tokenizer模型代码。这种开放策略将大幅降低语音大模型的应用门槛,使中小企业无需构建专用数据集,就能快速开发定制化音频应用。例如在智能家居、车载语音交互等实际应用场景,可以预见的是,基于Xiaomi-MiMo-Audio的语音大模型将会显著提升人机语音交互体验,让你的智能设备“更懂人话”。

相关内容

热门资讯

DONG见·新气象|从“交通旅... 10月23日,从宜昌秭归出发开往重庆的黄金游轮“长江记忆”号迎来了今年长江三峡游轮旅游的第100万位...
安徽天柱山有个“高颜值保安团”... 大皖新闻讯 日前,安徽天柱山风景区的“天柱山保安团”走红网络,其超高颜值和良好身材让不少网友心驰神往...
6万余株秋菊盛放 2025安徽... 本文转自:人民网-安徽频道东篱湖菊文化博览园内,6万余株菊花竞相绽放。人民网记者 苗子健摄人民网东至...
区县动态|露营、种菌两不误!贵... 近日,贵安新区马场镇平阳村的林下种植基地变得热闹起来——入口处的林间小道上停满了自驾车辆,不少游客专...
赴一场冬日精灵之约!三门峡白天... 大象新闻·河南交通广播记者 宋冰霜每当冬季来临,三门峡黄河湿地便成为白天鹅的天堂。这些圣洁的仙鸟从西...
国际文旅博览会合肥开幕 打造一... 大皖新闻讯 2025国际文旅博览会11月7日上午在合肥滨湖国际会展中心2号馆开幕,将持续至9日。本届...
湖南邵阳武冈:将千年古城“捧在... 11月5日,湖南省邵阳市人大常委会在武冈举行新闻发布会,通报《邵阳市武冈历史文化名城保护条例》将于2...
幽玄之境——京都龙安寺枯山水 ... 《日本艺术50讲》作者:潘力版本:浦睿文化|湖南美术出版社2025年7月如果说去奈良有一种梦回大唐的...
葛磊:绿色与健康,新需求催生文...   新华网太原11月6日电(王梦佳)11月6日,由新华网、新华社山西分社主办的第12届新华网思客年会...
立冬日 看成都锦江边万千“枫”... 今天是二十四节气中的立冬,阴雨绵绵中,成都锦江区国华街已被枫叶染成橘红色。沿街枫树层叠如火焰一般随风...