具身开源模型新王!千寻Spirit v1.5模型登顶 RoboChallenge,终结 Pi0.5领跑时代
创始人
2026-01-12 10:16:25
0

henry 发自 凹非寺

量子位 | 公众号 QbitAI

事情开始变得有趣起来了。

刚刚,来自千寻智能的具身智能基础模型Spirit v1.5,在RoboChallenge真机评测榜上,以总分66.09,成功率50.33%的成绩,超越美国明星公司Physical Intelligence的Pi0.5(π0.5),登顶榜首。

基于多样化的预训练数据采集范式Spirit v1.5在插花、把水果放进篮子、挂牙刷杯等多项任务中,拿下第一,刷新榜单纪录。

经此一役,Spirit v1.5不仅是RoboChallenge自去年10月上线以来,首个击败baseline模型Pi0.5的国产具身模型,同时也是首个在RoboChallenge上成功率超过50%的具身智能模型

就在前不久,另一家国产团队自变量发布的开源模型wall-oss-v0.1,刚刚超越Pi0,升至榜单第二。

而现在,Spirit v1.5直接越过Pi0.5,拿下榜首。

这种密集、连续的刷榜节奏,多少有点让人想起当年AlexNet、VGG、GoogLeNet、ResNet刷新ImageNet的那段时间——

基准在被不断打破,模型天花板被一再抬高。

也正如当年CV的开源景象,Spirit v1.5同步开源了基模权重、推理代码以及使用样例,方便后续的研究者复现和进一步探索。

而正是在这被誉为具身智能「ImageNet」的RoboChallenge上,开源模型正以可验证、可复现的方式,持续推动具身能力向前发展。

开源具身模型能力,全球领先

截至2026年1月12日,Spirit v1.5在RoboChallenge上取得了当前最优的性能,超越了Pi0.5等之前的全球领先开源模型。

在RoboChallenge的Table30任务中,Spirit v1.5表现堪称 “碾压级”,不仅在下列多项任务中夺得第一:

  • 插花(arrange flowers)

  • 水果入篮(arrange fruits in basket)

  • 挂牙刷杯(hang toothbrush cup)

  • 薯条倒碗(pour fries into plate)

  • 开瓶器入抽屉(put opener in drawer)

  • 笔入笔盒(put pen into pencilcase)

  • 寻找绿盒(search green boxes)

  • 浇花(water potted plant)

  • ……

还在贴胶带(stick tape to box)、清扫垃圾(sweep the rubbish)、开关灯(turn on light switch)等任务上实现绝对领先。

其中 “寻找绿盒” 任务堪称高光时刻——Spirit v1.5直接将成功率拉至90%

演示画面中,它能快速从一堆彩色方块中锁定绿色目标,稳稳放入指定篮子,整个过程干脆利落,没有丝毫拖泥带水。

在水果入篮任务中,Spirit v1.5更是以80%的成功率,领先Pi0.5整整一倍。

在演示中,Spirit v1.5能够轻松地拿起香蕉,放进篮子(下图经5倍加速)

而在插花任务中,虽然两款模型成功率均 50%,但实际执行中,Spirit v1.5的稳定性碾压Pi0.5,没有出现极端的失败案例。

(左为Spirit v1.5,右为Pi0.5)

在演示中,Spirit v1.5基本上可以稳稳地将鲜花放入花瓶。

而Pi0.5有时则会出现突然卡死的情况,从而导致任务中断。

在最考验技术功底的贴胶带任务中,即便Spirit v1.520%的成功率不算特别突出,但对比Pi0.5仅10%的表现,仍实现了翻倍领先。

贴胶带属于典型的闭环触觉接触任务(机器人手指 / 夹爪间隙极小),对机械臂协同与触觉感知要求极高,机器人经常会出现空抓的现象。

在演示中,Spirit v1.5凭借双机械臂精准配合,能流畅完成撕胶、贴盒全流程。

而相比之下,Pi0.5虽然能很快的定位到胶带的位置,但却难以感知到是否撕到胶带,频频出现了空贴的现象。

透过上述任务我们不难看出,Spirit v1.5在复杂长指令任务中的稳定发挥,意味着其已经进化为一个具备出色逻辑推理与空间感知能力的“具身大脑”。

而这份实力的认证,正来自具身智能领域的标杆级 “试炼场”——RoboChallenge。

RoboChallenge由Dexmal原力灵机联合Hugging Face发起,是首个在真实物理环境中,由真实机器人执行操作的大规模、多任务基准测试。

它的Table30任务集,通过30个高频桌面及周边日常场景,从VLA难点、机器人形态、任务流程与物体属性等维度考察模型真实世界通用操作能力。

考试机型覆盖ARX5、UR5e、ALOHA、Franka、UR5等;测试任务涵盖抓取、放置、堆叠、打开、按压、分类等复杂动作。

除上述任务设置外,RoboChallenge它的核心创新,在于Remote Robot Paradigm(远程机器人范式)

参赛者在本地运行模型,只需通过HTTP接口向机器人发送控制指令,机器人被视作一个可远程调用的“外设”。

这一设计显著降低了参赛门槛,同时避免了复杂环境配置带来的不确定性,使不同团队的算法能够在同一套真实硬件条件下接受统一评测。

所有参赛者均可通过官方页面查看比赛实况,全程保障赛事的公平与透明。

不过,由于推理发生在用户侧,模型的具体实现仍主要依赖参赛者自律与社区共识——

例如是否始终保持与所声明方案的一致性,是否在多任务通用型模型(multi-task generalist model)的设定下,避免针对单一任务的特殊化调优。

(注:RoboChallenge区分任务特定与通用型两种训练协议:前者针对单一任务单独训练,后者用少量混合数据训练一个多任务统一模型。榜单中带有/multi 后缀的模型,如Pi0.5/multi,遵循的正是这一更具挑战性的通用型设定。)

也正是在这一背景下,Spirit v1.5此次选择同步开源,其意义不仅在于成绩本身,也契合了RoboChallenge鼓励通过可复现、可验证的方式,共同推动具身智能基准向前发展的初衷。

那么,Spirit v1.5具体是怎么做到的呢?

数据多样性成制胜法宝

Spirit v1.5的核心创新,主要体现在预训练阶段的数据策略上。

它将具身模型的预训练数据,从高度精选、强控制的「干净数据」,转向多样化、开放式、弱控制的数据采集范式。

这里所说的「干净数据」,通常指动作模式相对单一、物体摆放位置与视角高度固定的精选数据集。

例如Open X-EmbodimentAgibotRoboCOIN等具身模型训练的主流数据集。

Open X-Embodiment

这类数据的优势在于:数采成本低、学习难度可控;

但代价同样明显——动作模式的多样性被显著压缩,模型对真实世界不确定性的适应能力因此受限。

针对这一问题,Spirit v1.5采取了相反的策略。

在数据采集阶段,它鼓励数采员只围绕任务目标行动,而不强制遵循固定的动作流程。

例如,在为假人头部化妆时,采集员并不会严格复现某一套标准操作,而是以更接近真实人类行为的方式自由完成任务。

这样做的结果是采集来的数据不再是单任务、单目标的单成功轨迹。

而是在自然执行过程中,连续覆盖了抓取、插入、整理、双臂协作、异常处理等大量原子技能,并以真实世界的时序关系串联在一起。

这种开放式采集显著扩大了动作分布,使模型在预训练阶段“见过更多可能性”,从而具备更强的迁移与泛化能力。

在工程层面,这一策略同样带来了可观收益:人均有效采集时长提升约 200%,对算法专家深度介入的需求降低约60%

而在实验验证中,这种以多样性为核心的数据策略,同样得到了印证。

一方面,在RoboChallenge Table30的真机评测中,Spirit v1.5已经在整体能力层面证明了该范式是成立的(相关结果已在前文展开)

另一方面,在消融实验中,研究团队在预训练数据规模完全一致的前提下,对比了两种策略:

  • 基于脚本化任务演示的预训练;

  • 基于多样化、开放式采集的预训练。

结果显示,多样化预训练的模型在新任务上的微调效率显著更高:在达到相同性能时,所需迭代次数减少约40%

进一步扩大多样化数据规模后,模型的验证误差仍在持续下降,并未出现明显的早期饱和现象。

这些发现表明,对具身模型而言,任务多样性比单一任务的演示数量更为关键

模型真正学到的,并非某个任务的最优动作序列,而是一套可迁移的通用策略,使其能够用更少的步骤适应新任务。

由此,使用高多样性、弱控制的数据进行预训练不仅可行,而且显著优于文献中常见的利用“干净”数据的做法。

也正因为并非针对单一任务优化,Spirit v1.5更适合作为一个通用具身智能的基础模型被复用。

对学界而言,它提供了一条不同于Pi系列且更优的开源技术路径。

对产业团队而言,这种以真实世界多样性为起点的预训练方式,显著降低了新场景的迁移与适配成本。

随着模型权重与代码同步开源,Spirit v1.5在RoboChallenge上的成绩不再只是一次展示,而成为一个可验证、可复现、可继续推进的起点。

Spirit v1.5背后的团队:千寻智能在做什么

最后,再把视角拉回到Spirit v1.5背后的团队——千寻智能(Spirit AI)

成立于2024年1月的千寻智能,是一支非常“年轻”的队伍,却已经成长为国内少数具备AI+机器人全栈、生产力级技术能力的具身智能公司。

简单概括,千寻的路线非常明确——通用人形机器人+具身大模型(VLA)一体推进,因此常被外界称为“中国版 Figure”。

创始人兼CEO韩峰涛:机器人行业连续创业者,曾任珞石机器人联合创始人兼CTO,在机器人行业拥有十余年经验,主导交付过超2万台工业机器人。

联合创始人兼首席科学家高阳:清华交叉信息研究院助理教授,“伯克利归国四子之一”,师从具身智能权威学者Pieter Abbeel,其提出的ViLa算法被Figure采用。

在融资方面,2025年千寻智能狂揽超15亿元融资,6月PreA+轮由京东领投6亿元,浙江省科创母基金、华泰紫金等新势力跟投,顺为资本、华控基金等老股东更是继续跟投。

在商业落地方面,其通用人形机器人 “小墨”(Moz1)已于2025年底在宁德时代电池产线规模化落地,精细作业成功率突破99%,用工业级场景完成了一次硬核验证。

而在技术路径上,从Spirit v1攻克柔性物体长程操作,到开源「边想边做」的OneTwoVLA,再到如今基于多样化真实数据采集的Spirit v1.5——

千寻始终在做一件事:把具身智能从“实验效果”,推进到“可复现、可量产、可落地”的工程体系中。

而这次Spirit v1.5在RoboChallenge上的登顶,并不仅仅意味着一次榜单上的领先。

它更像是千寻具身智能模型快速迭代周期中,一次在同一公开基准下完成的、具有标志意义的性能对标:

在真实机器人、真实任务、统一评测条件下,对现有的技术路线进行了一次阶段性验证。

从结果来看,Spirit v1.5在泛化性、稳定性与鲁棒性等系统层面的能力,已经出现了整体跃迁,而不仅是单点任务的“刷分”。

更重要的是,这一成绩并未停留在展示层面。

Spirit v1.5同步开源模型权重、推理代码和使用样例,使得这一结果可以被复现、被检验、也可以被后续研究继续推进。

正如当年ImageNet之于计算机视觉,只有在一个可复现、公正、开放的基准之上,模型能力的进步才具备真正的参考价值。

而模型的开源也进一步方便后续研究者的快速迭代优化与创新探索。

在被不少研究者视作具身智能「ImageNet」的RoboChallenge上,这次登顶既是一次能力确认,也是一种明确表态——

千寻选择将技术进展放入开源体系之中,与社区一起,把具身智能的天花板持续往前推。

正如千寻首席科学家高阳针对Spirit v1.5在开源模型赛道斩获全球第一时说所的:

它不仅是一次技术上的突破,也意味着我们在追寻智能的道路上,再次站到了当下人类智能所能企及的高度之一。更重要的是,这个模型是开源的。我们选择把它交到更多人手中,让大家一起使用、一起验证、一起推进这条路。智能不应该被少数人垄断,而应该被共同建设。

开源地址:

Code: https://github.com/Spirit-AI-Team/spirit-v1.5

Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5

Blog:https://www.spirit-ai.com/en/blog/spirit-v1-5

相关内容

热门资讯

马斯克开源算法引爆GEO赛道 ... 2026年1月12日,港股迈富时(02556)再度跳空高开,盘中一度涨超27%,市值突破126.3亿...
“冷资源”掀起“文旅热” “冰...   新华社北京1月12日电 《参考消息》近日刊发文章《“冷资源”掀起“文旅热” “冰城”哈尔滨搭建对...
AI点亮“慧眼” CAD秒辨万... 文、图/广州日报全媒体记者张露、钟达文 搭载AI技术的CAD软件发挥“以图识图”能力,仅需几秒就能从...
万联易达杜新凯:AI+不是技术... 新京报贝壳财经讯(记者陈维城)1月12日消息,万联易达集团副总裁杜新凯在“第9届新驱动力峰会”上表示...
马斯克宣布将开源X平台推荐算法... 1月12日午后,AI应用持续爆发,软件赛道多只个股涨停。创业板软件ETF华夏(159256)持仓股中...
A.O.史密斯:深耕AI集成,... 2026-01-12 12:07:49 作者:狼叫兽 在AI技术深度渗透的2025年,智能家居已从...
谁能“港”活千年古镇故事?这场... 本文转自:人民网-湖南频道现场。受访单位供图近日,长沙靖港古镇“金牌讲解员”挑战赛复赛举行。活动以“...
国内AI产业迎来机遇期,两大A... 1月12日,智谱(02513.HK)、MINIMAX-WP(0100.HK)盘中再度走高,截止发稿,...
湖北建始:冰雪裹林海 冬景醉游... 来源:中国新闻网余安钢 摄近日,一场大雪将湖北省建始县高岩子林场覆盖,林场内万亩落叶松身披银装,天地...
微盟集团加速AI战略布局,发布... 新京报贝壳财经讯(记者程子姣)1月12日,微盟集团宣布正式上线GEO解决方案微盟星启,自研生成式引擎...