阶跃星辰再开源 推出SOTA级端到端语音大模型
创始人
2025-09-01 13:43:27
0

近日,阶跃星辰正式发布最强开源端到端语音大模型Step-Audio 2 mini,该模型在多个国际基准测试集上取得SOTA(State-of-The-Art,即当前最佳水平)成绩。

上证报中国证券网讯(记者 孙小程)近日,阶跃星辰正式发布最强开源端到端语音大模型Step-Audio 2 mini,该模型在多个国际基准测试集上取得SOTA(State-of-The-Art,即当前最佳水平)成绩。

在技术层面,Step-Audio 2 mini采用真正的端到端多模态架构,并将语音理解、音频推理与生成统一建模,不仅时延更低、输出更快,还能更加精准地理解副语言信息、非人声信号等语音要素,显著提升了语音人机交互的效率和智能上限。

根据测评,这款模型在音频理解、语音识别、跨语种翻译、情感与副语言解析等任务中表现突出,综合性能超越Qwen-Omni 、Kimi-Audio在内的所有开源端到端语音模型,并在大部分任务上超越GPT-4o-audio。

在此之前,吉利发布了搭载阶跃星辰端到端语音大模型的吉利银河M9,这是行业内端到端语音大模型首次实现量产上车。

阶跃星辰相关负责人介绍,自去年发布国内首个千亿参数端到端语音大模型Step-1o Audio以来,公司持续迭代模型性能,并跟吉利、鲸鱼机器人、TCL、Cyan青心意创等头部终端厂商达成深度合作,让语音大模型在生活场景中为消费者提供更加智能、便捷的互动体验。

今年以来,阶跃星辰已经开源8款性能领先的多模态模型,覆盖语音、视频生成、图像编辑、3D、多模态推理等多个类别。

相关内容

热门资讯

科技光影碰撞戏剧年味!乌镇60... 2月10日至3月3日,乌镇景区将以“马上添福”为主题,推出融合“年俗、戏剧、科技、文化”四大类型的六...
Claude「开上」火星!跨越... 新智元报道 编辑:犀牛 元宇 【新智元导读】当我们还在用Claude写邮件、改代码时,它已经偷偷跑...
从数字设计到AI创作,深圳公共... 当一流美术馆拥抱AI创造力,会产生什么奇妙效果?1月28日,深圳美术馆迎来一场跨越科技与人文、连接传...
用“有温度的服务”擦亮云南旅游... 本文转自:人民网-云南频道人民网昆明1月31日电 (曾智慧、尹馨)“‘有一种叫云南的生活’,不仅是一...
千城胜景|河北秦皇岛:野鸭戏水...   近日,河北省秦皇岛市卢龙县的青龙河水面,成群结队的野鸭或凫游觅食、悠然栖居,或振翅追逐、掠水低飞...
瑞雪云海美如画 1月31日,重庆市南川区金佛山景区迎来降雪。雪后初晴,金佛山呈现雾凇、云海等气象奇观,构成一幅南国雪...
江西婺源弦高古城,游客打卡来来... 戚勇 摄江西婺源弦高古城,游客打卡来来往往江西婺源弦高古城,游客打卡来来往往江西婺源弦高古城,游客打...
日媒关注 日本城市未进入中国游... 参考消息网1月30日报道 据《日本经济新闻》1月30日报道,中国政府于29日发布预测称,春节假期前后...
逛非遗、游花灯、赏烟花 3月2... 南充市嘉陵区三会镇蛴蟆节现场。(图片:黄瑜亮、宋昕)杨春梅 封面新闻记者 刘彦君“正月十四夜,送蛴蟆...