机器人连续叠衣120分钟!仅用0.9B参数实现五大SOTA|清华AIR & 上海AI Lab开源
创始人
2025-10-18 17:18:37
0

X-VLA团队 投稿

量子位 | 公众号 QbitAI

机器人也是卷疯了!

不仅能叠衣服,而且一干就是俩小时,且全程无任何辅助。

清华大学智能产业研究院(AIR)与上海人工智能实验室联合发布通用跨本体具身基座模型X-VLA,通过创新的Soft-Prompt机制、高效的框架设计与定制化训练范式,显著提升预训练效率与模型性能。

更关键的是,X-VLA是首个实现120min无辅助自主叠衣任务的全开源模型(公开数据、代码与参数),以仅0.9B的参数量在五大权威仿真基准上全面刷新性能纪录

核心方法

为克服不同机器人平台在自由度、相机观测视角等本体参数上的差异,研究引入了可学习的Soft-Prompt

该机制动态地将具身本体的硬件配置信息编码为一种连续表征,使模型在预训练中能够解耦任务策略与具体执行器,从而显著增强模型对异构机器人平台的适应能力,并提升混合数据训练的稳定性与效率。

针对机器人任务中多源视觉输入的异质性,研究团队提出了分治编码方案

任务相关的主视角图像由高性能视觉-语言模型编码,以提取高层语义特征;而主要提供低层次空间反馈的辅助视角,则通过轻量化的网络进行局部特征提取。

该策略在保证信息完整性的前提下,优化了计算资源的分配,提升了模型的信息处理通量。

模型主干采用标准Transformer架构,以确保良好的扩展性与通用性。动作生成模块摒弃了传统的确定性输出策略,转而采用先进的flow-matching,以概率生成的方式建模机器人动作序列。

该方法显著增强了动作轨迹的平滑性与对不确定环境的鲁棒性,为长时序任务的成功执行奠定了坚实基础。

在预训练阶段,研究采用大规模高质量异构数据,主要特点如下所示:

平衡化数据采样:定制数据采样策略,确保异构数据集的均衡训练,避免模型偏斜。

多模态数据清洗与时空对齐流水线:团队对原始机器人操作数据实施了严格预处理,包括:将不同空间下的动作数据统一映射至标准任务空间;对高频率采集的数据进行时序层面的对齐与重采样。

此流程极大提升了状态-动作序列在时间上的一致性逻辑与整体质量。

以语义-动作对齐为导向的数据遴选标准:团队确立了严格的数据质量门槛,核心是筛选视觉帧清晰、语言指令描述精准且与后续动作序列高度关联的数据样本。

此举从源头上确保了模型学习到的是有明确因果关系的“行为知识”,而非浅层的虚假关联。

在后训练阶段,研究主要在两个方面进行了调整。

分层分组的自适应学习率调整

鉴于模型中不同组件(如预训练冻结的VLM、新引入的Soft-Prompt、主干Transformer等)的参数规模与收敛特性各异,团队为其施加了分组别、差异化的学习率调度策略。

该设计既保护了预训练获得的基础知识,又允许关键适配层快速调整,从而在保证训练稳定性的同时,大幅优化了收敛效率。

面向异构模块的渐进式 warm-up 策略

对于模型中新引入的可学习参数(如Soft-Prompt),团队在训练初始阶段采用线性递增的学习率热身机制,使其参数空间得以平稳初始化,再逐步融入全局优化过程。

该策略有效避免了训练初期因梯度剧变导致的不稳定性,尤其适用于异构模块的协同训练。

实验结果高效预训练:可扩展的架构优势

可扩展的架构优势X-VLA的预训练缩放定律(Scaling Laws)曲线呈现出优异的线性增长趋势。这表明,随着模型参数以及训练数据规模的同步扩大,其在测试集的开环测试性能呈现稳定、可预测的提升。

这一现象验证了所提出的Soft-Prompt机制与简洁Transformer架构的强大可扩展性,为构建更大规模的具身智能基座模型奠定了坚实基础。

数据与算法的协同优化

得益于高质量的预训练基座,X-VLA在后训练(微调)阶段展现出极高的数据效率与稳定性。针对不同的下游任务(如自主叠衣),只需使用中小规模的场景专属数据进行微调,模型便能快速适应并达到SOTA性能。

这源于预训练阶段学习到的通用视觉-语言-动作表征,以及后训练中采用的定制化学习率策略与慢启动机制,它们共同确保了知识从通用域到特定任务的高效、稳定迁移。

X-VLA除了在包括LIBERO、SIMPLER等在内的权威仿真环境中取得SOTA表现外,在真实的机器人平台上,该模型也在大量简单抓取和桌面操作任务中展现了强大性能,并成功完成了无限时长的自主叠衣任务,展示了其应对复杂长程任务的卓越能力。

项目主页:https://thu-air-dream.github.io/X-VLA/

代码:https://github.com/2toinf/X-VLA.git

论文链接: https://arxiv.org/pdf/2510.10274

相关内容

热门资讯

AI时代,哪些工作是永远抢不走... 2025年AI大发展,但大多数普通老百姓还没来得及从中感受到好处。AI要真正成为民生正面的东西,它第...
Z世代跨年爱游广州!元旦假期,... 2026年元旦将至,万象更新。值此岁末年初之际,广州将以500余场文旅活动喜迎新年,涵盖精品演出、新...
元旦小长假去台州!吃喝玩乐超有... 元旦小长假,浙江台州已备好一场山海间的狂欢嘉年华!从戏曲盛宴到烟火星空,从古早味美食到创意汉堡,从无...
AI内存需求暴增,铠侠今年涨幅... 日本存储芯片制造商铠侠控股公司凭借人工智能对数据存储的旺盛需求,成为今年全球表现最佳的股票,年内涨幅...
别错过!“萝岗香雪”即将进入最... 南都讯 记者莫郅骅 通讯员 郭晓金 李雨云 12月30日上午,广州萝岗香雪公园热闹非凡,第十六届“萝...
鸿蒙红撞上长沙红 这趟城市色彩... 长沙的红,藏在街头巷尾的烟火里:爱晚亭飘落的枫叶红得热烈,火宫殿红墙映着市井热气,中国结桥的红弧勾勒...
组队学剪辑、玩AI,常平“银龄... 在东莞常平的社区活动室、文化广场乃至长者饭堂里,始终跃动着一抹温暖而充满活力的“银龄色彩”。 过去一...
跨境魔方 AI 外贸员:让AI... 在全球化贸易竞争日趋激烈的当下,外贸企业获客难、成本高、转化效率低等痛点日益凸显。传统获客模式依赖人...
沐曦股份:曦云C500/C55... 12月30日,沐曦股份官微发文,今日腾讯混元宣布推出并开源翻译模型1.5,共包含两个模型:Tence...
CityHike解锁海派新玩法... “原来天桥连廊不仅是过街通道,还藏着徐家汇商圈迭代的密码。”“在市中心徒步能同时看到哥特式建筑、城市...