具身智能之心”公众号
作者丨Songlin Wei 等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
>>
在人形机器人走向真实场景的过程中,全身运动与精细操作协同(Loco‑Manipulation)是决定其能否落地的核心能力。当前主流方案普遍依赖海量人与机器人异构数据进行端到端联合训练,但受限于人体与人形机器人在运动学、动力学、自由度与动作频率上的本质差异,数据效率极低、模型泛化与控制精度难以满足长时序复杂任务需求。
(Psi‑Zero)由南加州大学物理超智能实验室(PSI Lab)联合 NVIDIA、WorldEngine 提出,是一款面向全身运动-操作的开源视觉-语言-动作(VLA)基础模型。它通过解耦式分阶段训练,最大化低成本人类第一人称视频与少量高质量机器人数据的价值,仅用约 800 小时人类视频 + 30 小时真实机器人数据,就在多项长时序精细操作任务上大幅超越使用 10 倍以上数据的基线模型,为通用人形机器人提供了一条低成本、高效率、强落地的技术路线。
论文标题:Ψ0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation
论文链接:https://arxiv.org/abs/2603.12263
项目主页:https://psi-lab.ai/Psi0
更多内容也欢迎关注我们的知识星球,和近3000名成员一起交流~
为何要重构人形机器人运动-操作的学习范式?
当前人形机器人在运动-操作一体化上面临难以调和的矛盾,直接制约通用能力发展:
真实机器人数据成本与规模不可兼得
远程操作数据采集耗时、昂贵、难以规模化,而依赖海量机器人数据的方案(如 RT-1/2、系列、GR00T)对普通实验室极不友好。
人类视频知识难以迁移到机器人
人体与人形机器人的躯体差异(Embodiment Gap)巨大,直接联合训练会让模型同时学习两种完全不同的动作分布,导致策略不稳定、长时序任务易失败。
运动与操作难以协同控制
下肢运动稳定性、躯干姿态、上肢双腕协调、手指精细操作相互干扰,现有系统要么偏重行走,要么偏重桌面操作,难以完成连贯的长程复合任务。
传统方案要么盲目扩数据,要么简化任务,均无法同时实现数据高效、控制稳定、操作精细。的核心创新,就是不做端到端混合训练,而是分阶段蒸馏人类先验 + 精调机器人控制。
整体定位与核心设计思想
的核心定位:专注人形机器人全身 43 自由度运动-操作一体化的开源 VLA 基础模型。
核心设计思想:
解耦学习:先用人类视频学通用视觉-动作先验,再用机器人数据学精准关节空间控制;
分层架构:感知-推理-动作-运动分层负责,降低耦合、提升稳定性;
数据高效:优先用低成本高质量人类数据,仅用极少量机器人数据完成领域适配;
部署友好:内置实时动作分块,解决大模型推理延迟带来的运动抖动。
核心设计:三系统架构 + 分阶段训练 + 全流程优化
采用三层级协同系统架构,清晰划分感知、动作生成、底层运动控制(如图 2):
System‑2:视觉-语言主干(VLM Backbone)
基座模型:Qwen3‑VL‑2B‑Instruct
功能:接收头部相机图像、语言指令、本体感知信息,输出对齐机器人任务的视觉-语言特征;
设计目标:学习通用物体交互、空间关系、任务语义,不直接输出机器人动作。
参数规模:约 500M
结构:基于流匹配(Flow Matching)的多模态扩散 Transformer;
创新点:采用联合注意力 + 双特征调制,比传统 DiT 更擅长融合视觉-语言特征与动作序列;
输出:直接预测关节空间连续动作块,包括双手 + 双臂 28 自由度、躯干姿态、基座高度与运动速度。
System‑0:下肢稳定控制器(Lower‑Body Controller)
方案:基于 AMO 的 RL 跟踪策略;
功能:接收高层运动指令,输出 15 自由度下肢关节角,保证行走、转向、下蹲过程中的平衡与稳定;
价值:把操作与运动解耦,让上肢专注精细操作,下肢专注稳定移动。
整体输出:43 自由度全身动作,实现移动 + 转身 + 下蹲 + 双上肢协同 + 手指精细操作一体化。
训练范式:三阶段高效学习,破解数据鸿沟
放弃端到端混合训练,提出分阶段递进训练配方,这是它数据效率极高的关键。
阶段 1:人类第一人称视频预训练(Pre‑Training on Egocentric Videos)
数据来源:
EgoDex:约 829 小时人类精细操作第一人称视频;
Humanoid Everyday:31 小时人形机器人多任务数据。
训练目标:
让 VLM 学习任务级动作先验与机器人对齐的视觉表示,只预测单步动作而非长动作块,大幅降低计算开销。
关键工程:
使用FAST 动作分词器,将 48 自由度动作压缩为约 20 个离散 token,在低重建损失下实现高效训练。
数据:高质量真实机器人轨迹数据(Humanoid Everyday);
策略:冻结 VLM 主干,只训练动作专家;
目标:让 MM‑DiT 学习机器人专属关节空间动力学,直接输出可执行的关节角,避开人体-机器人动作分布冲突。
损失函数:流匹配损失(Flow Matching Loss)。
数据:每个目标任务 80 条远程操作轨迹;
策略:只微调动作专家;
目标:快速适配长时序、复合式、双上肢协同任务。
大模型推理延迟(约 160ms / 次前向)会导致机器人出现停顿-抖动-碰撞。
采用训练时实时动作分块(如图 4):
训练中随机掩码前若干动作 token,让模型学习动作块之间的平滑连续性;
部署时推理与执行异步进行,30Hz 控制循环无中断运行;
效果:动作连贯、无卡顿、显著降低碰撞失败率。
为高效采集高质量人形机器人数据,设计单人即可完成的全身远程操作方案(如图 5):
上肢 / 手部:PICO 头显 + 手腕追踪器 + MANUS 数据手套,精准捕捉手指与手臂姿态;
下肢 / 运动:腰部 + 足部追踪器输出高层速度 / 转向指令,RL 控制器保证稳定;
优势:无遮挡、追踪稳、单人操作、运动与操作解耦。
硬件平台:宇树 G1 人形机器人,双臂配 Dex3‑1 灵巧手;
任务集:8 项真实世界长时序运动-操作任务(如图 6),包含:
开盖→开龙头→装水
喷水→擦碗→折叠
取瓶→转身→倒水
取罐→倾倒→推车
推车→取葡萄→放置
装玩具→行走→递物
提袋→下蹲→放置
抽托盘→扔罐
评估规则:10 次试验 / 任务,所有子任务完成才算整体成功。
包括 0.5、GR00T N1.6、InternVLA‑M1、EgoVLA、H‑RDT、Diffusion Policy、ACT 等 7 个当前主流模型。
核心结果(如图 7)
整体成功率:显著超越所有基线,比第二名 GR00T N1.6高出 40% 以上;
数据效率:仅用约 1/10 数据量实现更强性能;
精细操作优势:在开龙头、抽托盘、双上肢协同等任务上优势最明显;
运动稳定性:下蹲、行走、转身等动作连贯无抖动。
通过严格消融验证核心模块的必要性:
人类预训练至关重要:无 EgoDex 预训练,任务成功率大幅下降;
后训练必须用机器人数据:仅用人类数据无法完成精准关节控制;
MM‑DiT > 传统 DiT:联合注意力与特征调制带来稳定增益;
实时动作分块(RTC):减少抖动与碰撞,提升长时序任务成功率。
核心贡献与行业价值
重新定义人形机器人数据范式
证明高质量人类先验 + 少量机器人精调>> 盲目堆砌异构机器人数据,大幅降低研发门槛。
首个高效全身运动-操作开源模型
统一解决移动、躯干、双臂、手指的协同控制,支持长时序复杂日常任务。
全套开源生态
开放数据处理流程、训练代码、模型权重、实时推理引擎、远程操作框架,推动社区普惠创新。
工程化落地关键突破
用 RTC 解决大模型推理延迟抖动,用分层架构保证系统稳定,可直接部署到实体机器人。
数据与算力限制:尚未进一步扩大人类视频与机器人数据规模;
硬件负载约束:受机器人负载限制,部分重型操作无法执行;
未来优化方向:
扩大多模态输入(触觉、力觉、声音);
与标准化评估基准(如 ManipulationNet)结合,实现可对比、可复现;
进一步优化跨任务泛化,降低单任务微调成本;
实现全自动验证与失败案例分析。
是当前数据效率最高、面向真实场景长时序任务的人形机器人 VLA 基础模型。它没有走 “堆数据、堆参数” 的老路,而是通过解耦训练、分层架构、实时动作分块、定制远程操作四大创新,破解人形机器人从实验室走向家庭/服务场景的核心瓶颈。
它的出现证明:人形机器人的通用智能,不取决于数据多少,而取决于数据用得对不对、架构设计合不合理。为全球人形机器人研发提供了一条可复制、低成本、高性能的全新路径。