最新开源!全身运动操作的VLA基础模型,wholebody任务今年的风向标~
创始人
2026-03-17 17:27:38
0

具身智能之心”公众号

作者丨Songlin Wei 等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文

>>

在人形机器人走向真实场景的过程中,全身运动与精细操作协同(Loco‑Manipulation)是决定其能否落地的核心能力。当前主流方案普遍依赖海量人与机器人异构数据进行端到端联合训练,但受限于人体与人形机器人在运动学、动力学、自由度与动作频率上的本质差异,数据效率极低、模型泛化与控制精度难以满足长时序复杂任务需求。

(Psi‑Zero)由南加州大学物理超智能实验室(PSI Lab)联合 NVIDIA、WorldEngine 提出,是一款面向全身运动-操作的开源视觉-语言-动作(VLA)基础模型。它通过解耦式分阶段训练,最大化低成本人类第一人称视频与少量高质量机器人数据的价值,仅用约 800 小时人类视频 + 30 小时真实机器人数据,就在多项长时序精细操作任务上大幅超越使用 10 倍以上数据的基线模型,为通用人形机器人提供了一条低成本、高效率、强落地的技术路线。

  • 论文标题:Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

  • 论文链接:https://arxiv.org/abs/2603.12263

  • 项目主页:https://psi-lab.ai/Psi0

更多内容也欢迎关注我们的知识星球,和近3000名成员一起交流~

为何要重构人形机器人运动-操作的学习范式?

当前人形机器人在运动-操作一体化上面临难以调和的矛盾,直接制约通用能力发展:

真实机器人数据成本与规模不可兼得

远程操作数据采集耗时、昂贵、难以规模化,而依赖海量机器人数据的方案(如 RT-1/2、系列、GR00T)对普通实验室极不友好。

人类视频知识难以迁移到机器人

人体与人形机器人的躯体差异(Embodiment Gap)巨大,直接联合训练会让模型同时学习两种完全不同的动作分布,导致策略不稳定、长时序任务易失败。

运动与操作难以协同控制

下肢运动稳定性、躯干姿态、上肢双腕协调、手指精细操作相互干扰,现有系统要么偏重行走,要么偏重桌面操作,难以完成连贯的长程复合任务。

传统方案要么盲目扩数据,要么简化任务,均无法同时实现数据高效、控制稳定、操作精细的核心创新,就是不做端到端混合训练,而是分阶段蒸馏人类先验 + 精调机器人控制

整体定位与核心设计思想

的核心定位:专注人形机器人全身 43 自由度运动-操作一体化的开源 VLA 基础模型

核心设计思想:

解耦学习:先用人类视频学通用视觉-动作先验,再用机器人数据学精准关节空间控制;

分层架构:感知-推理-动作-运动分层负责,降低耦合、提升稳定性;

数据高效:优先用低成本高质量人类数据,仅用极少量机器人数据完成领域适配;

部署友好:内置实时动作分块,解决大模型推理延迟带来的运动抖动。

核心设计:三系统架构 + 分阶段训练 + 全流程优化

采用三层级协同系统架构,清晰划分感知、动作生成、底层运动控制(如图 2):

System‑2:视觉-语言主干(VLM Backbone)

  • 基座模型:Qwen3‑VL‑2B‑Instruct

  • 功能:接收头部相机图像、语言指令、本体感知信息,输出对齐机器人任务的视觉-语言特征;

  • 设计目标:学习通用物体交互、空间关系、任务语义,不直接输出机器人动作。

System‑1:多模态扩散动作专家(MM‑DiT Action Expert)
  • 参数规模:约 500M

  • 结构:基于流匹配(Flow Matching)的多模态扩散 Transformer;

  • 创新点:采用联合注意力 + 双特征调制,比传统 DiT 更擅长融合视觉-语言特征与动作序列;

  • 输出:直接预测关节空间连续动作块,包括双手 + 双臂 28 自由度、躯干姿态、基座高度与运动速度。

System‑0:下肢稳定控制器(Lower‑Body Controller)

  • 方案:基于 AMO 的 RL 跟踪策略;

  • 功能:接收高层运动指令,输出 15 自由度下肢关节角,保证行走、转向、下蹲过程中的平衡与稳定;

  • 价值:把操作与运动解耦,让上肢专注精细操作,下肢专注稳定移动。

整体输出:43 自由度全身动作,实现移动 + 转身 + 下蹲 + 双上肢协同 + 手指精细操作一体化。

训练范式:三阶段高效学习,破解数据鸿沟

放弃端到端混合训练,提出分阶段递进训练配方,这是它数据效率极高的关键。

阶段 1:人类第一人称视频预训练(Pre‑Training on Egocentric Videos)

  • 数据来源:

    • EgoDex:约 829 小时人类精细操作第一人称视频;

    • Humanoid Everyday:31 小时人形机器人多任务数据。

  • 训练目标:

    让 VLM 学习任务级动作先验与机器人对齐的视觉表示,只预测单步动作而非长动作块,大幅降低计算开销。

  • 关键工程:

    使用FAST 动作分词器,将 48 自由度动作压缩为约 20 个离散 token,在低重建损失下实现高效训练。

阶段 2:跨任务人形机器人数据后训练(Post‑Training)
  • 数据:高质量真实机器人轨迹数据(Humanoid Everyday);

  • 策略:冻结 VLM 主干,只训练动作专家

  • 目标:让 MM‑DiT 学习机器人专属关节空间动力学,直接输出可执行的关节角,避开人体-机器人动作分布冲突。

  • 损失函数:流匹配损失(Flow Matching Loss)。

阶段 3:域内远程操作数据微调(Fine‑Tuning)
  • 数据:每个目标任务 80 条远程操作轨迹;

  • 策略:只微调动作专家;

  • 目标:快速适配长时序、复合式、双上肢协同任务。

关键工程创新:让机器人动作 “稳、顺、准”训练时实时动作分块(Training‑Time RTC)

大模型推理延迟(约 160ms / 次前向)会导致机器人出现停顿-抖动-碰撞

采用训练时实时动作分块(如图 4):

  • 训练中随机掩码前若干动作 token,让模型学习动作块之间的平滑连续性;

  • 部署时推理与执行异步进行,30Hz 控制循环无中断运行;

  • 效果:动作连贯、无卡顿、显著降低碰撞失败率。

定制化全身远程操作框架

为高效采集高质量人形机器人数据,设计单人即可完成的全身远程操作方案(如图 5):

  • 上肢 / 手部:PICO 头显 + 手腕追踪器 + MANUS 数据手套,精准捕捉手指与手臂姿态;

  • 下肢 / 运动:腰部 + 足部追踪器输出高层速度 / 转向指令,RL 控制器保证稳定;

  • 优势:无遮挡、追踪稳、单人操作、运动与操作解耦。

真实世界实验:数据更少,性能更强实验配置
  • 硬件平台:宇树 G1 人形机器人,双臂配 Dex3‑1 灵巧手;

  • 任务集:8 项真实世界长时序运动-操作任务(如图 6),包含:

  1. 开盖→开龙头→装水

  2. 喷水→擦碗→折叠

  3. 取瓶→转身→倒水

  4. 取罐→倾倒→推车

  5. 推车→取葡萄→放置

  6. 装玩具→行走→递物

  7. 提袋→下蹲→放置

  8. 抽托盘→扔罐

  • 评估规则:10 次试验 / 任务,所有子任务完成才算整体成功。

对比基线

包括 0.5、GR00T N1.6、InternVLA‑M1、EgoVLA、H‑RDT、Diffusion Policy、ACT 等 7 个当前主流模型。

核心结果(如图 7)

  • 整体成功率显著超越所有基线,比第二名 GR00T N1.6高出 40% 以上

  • 数据效率:仅用约 1/10 数据量实现更强性能;

  • 精细操作优势:在开龙头、抽托盘、双上肢协同等任务上优势最明显;

  • 运动稳定性:下蹲、行走、转身等动作连贯无抖动。

消融实验(如表 1)

通过严格消融验证核心模块的必要性:

人类预训练至关重要:无 EgoDex 预训练,任务成功率大幅下降;

后训练必须用机器人数据:仅用人类数据无法完成精准关节控制;

MM‑DiT > 传统 DiT:联合注意力与特征调制带来稳定增益;

实时动作分块(RTC):减少抖动与碰撞,提升长时序任务成功率。

核心贡献与行业价值

重新定义人形机器人数据范式

  • 证明高质量人类先验 + 少量机器人精调>> 盲目堆砌异构机器人数据,大幅降低研发门槛。

首个高效全身运动-操作开源模型

  • 统一解决移动、躯干、双臂、手指的协同控制,支持长时序复杂日常任务。

全套开源生态

  • 开放数据处理流程、训练代码、模型权重、实时推理引擎、远程操作框架,推动社区普惠创新。

工程化落地关键突破

  • 用 RTC 解决大模型推理延迟抖动,用分层架构保证系统稳定,可直接部署到实体机器人。

局限与未来方向

数据与算力限制:尚未进一步扩大人类视频与机器人数据规模;

硬件负载约束:受机器人负载限制,部分重型操作无法执行;

未来优化方向

  • 扩大多模态输入(触觉、力觉、声音);

  • 与标准化评估基准(如 ManipulationNet)结合,实现可对比、可复现;

  • 进一步优化跨任务泛化,降低单任务微调成本;

  • 实现全自动验证与失败案例分析。

总结

当前数据效率最高、面向真实场景长时序任务的人形机器人 VLA 基础模型。它没有走 “堆数据、堆参数” 的老路,而是通过解耦训练、分层架构、实时动作分块、定制远程操作四大创新,破解人形机器人从实验室走向家庭/服务场景的核心瓶颈。

它的出现证明:人形机器人的通用智能,不取决于数据多少,而取决于数据用得对不对、架构设计合不合理为全球人形机器人研发提供了一条可复制、低成本、高性能的全新路径。

相关内容

热门资讯

踏青赏花、采春茶、吃春菜 各地... 春和景明,万象更新。连日来,全国各地踏青赏花、采春茶、吃春菜等春季特色体验备受欢迎,带动文旅消费持续...
中曼石油成立智能信息科技公司,... 企查查APP显示,近日,西诺(上海)智能信息科技有限公司成立,注册资本1000万元,经营范围包含:网...
5G+AI,解锁佛山工业园区安... 央广网佛山3月18日消息(记者 徐钡儿)路灯根据光感自动调节亮度,既满足照明需求又实现节能环保;高空...
国联民生证券:AWE2026揭... 3月18日,随着人工智能与物理实体进入深度融合阶段,2026年中国家电及消费电子博览会(AWE202...
AI被“投毒”,如何避免上当受... 本报记者 崔爽 央视“3·15”晚会揭露的AI(人工智能)“投毒”黑产,撕开了生成式AI商业化进程中...
华为发布全新AI数据基础设施,... 3月17日,在2026华为数据存储新春发布会上,华为正式发布针对AI推理场景的全新AI数据基础设施,...
各方携手多措并举深化人工智能开... 中新网上海3月17日电 (记者 陈静)记者17日获悉,在开放原子园区行(上海站)开源数据集专场活动中...
如何让AI走向更高质量的共情?... 机器之心发布 现如今,大模型越来越擅长在单轮对话中生成温柔体贴、情绪价值拉满的文字,然而,我们或许会...
苹果发布iOS/iPadOS/... IT之家 3 月 18 日消息,苹果昨日(3 月 17 日)面向 iOS 26.3.1、iPadOS...