AI打通第一/第三人称视觉,跨视角视觉理解新SOTA|ICCV 2025 Highlight
创始人
2025-10-18 18:21:48
0

ObjectRelator团队 投稿

量子位 | 公众号 QbitAI

具身智能落地迈出关键一步,AI拥有第一人称与第三人称的“通感”了!

INSAIT、复旦大学等单位联合提出ObjectRelator框架,让AI精准匹配不同视角下的同一物体,实现跨视角的统一表征与理解

实验中,ObjectRelator在Ego(第一人称视觉)转Exo(三人称视觉)和Exo转Ego两个任务上都显著超越了所有基线模型,拿下SOTA。

Ego→Exo效果,be like:

Exo→Ego也可以很好地对齐:

目前,该工作已被ICCV 2025接收为Highlight论文,代码已开源。

Ego与Exo之间的鸿沟

在人类技能习得过程中,需要在两个视角之间进行流畅的转换。

我们在观看别人的演示过程时,会尝试在脑海中想象自己进行这些操作的场景。然而这一跨视角理解的能力对于计算机和机器人来说却是一个巨大的挑战,制约着机器人学习、VR交互等关键领域的发展。

第一人称视角具备较强的沉浸感与交互细节捕捉能力,能够精确刻画主体与环境之间的动态交互过程。然而,其视觉范围受限、画面稳定性较差,难以全面反映场景全貌

相比之下,第三人称视角具有更广阔的空间感知能力,能够清晰呈现场景与动作的整体结构及时空关系,但其画面中目标物体通常较小,细节信息相对不足

如何在物体级别上建立第一人称与第三人称视角之间的视觉对应与语义关联,进而实现跨视角的统一表征与理解,仍是当前领域亟待解决的核心问题。

现有工作的不足与挑战

尽管近年来出现了诸如Mask2Former、SAM、SAM2等高性能图像分割模型,但如下图所示,他们普遍受限于从单一图像(视中进行图像分割任务,难以驾驭跨视角分割问题。

PSALM是为数不多可以接受双视角输入进行分割的模型,然而其在面临Ego-Exo跨视角物体分割任务时仍面临两大核心挑战:

1、复杂的背景干扰

2、显著的视觉变换

同一个物体,在Ego视角中可能占据图像的大部分区域,而在Exo视角中则仅表现为画面中的一个小尺度目标,其外观形态、姿态角度以及相对空间位置均发生剧烈变化。此外,由于光照、遮挡和相机参数不同,物体的颜色、纹理等视觉特征在两个视角下也会呈现出明显的视觉差异。

如下对比图显示,(a)PSALM会定位到形状相似而语义错误的物体类型; (b)PSALM不能分割出形状变化较大的正确物体。

两大创新模块,解锁跨视角“通感”

为了攻克上述难题,ObjectRelator基于PSALM构建了第一个跨视角多模态分割模型,能够有效支持以Ego-Exo为代表的跨视角物体关联人物。方法主要包含两个核心模块:

1、多模态条件融合模块(MCFuse)

为了让模型不只“看形状”,还要“懂语义”,MCFuse首次将语言描述引入跨视角分割任务。它通过预训练的视觉语言模型(LLaVA)为查询物体生成一句简短的文本描述(如“一把黑色的剪刀”),再与视觉掩码特征进行融合。

融合过程中,模型通过交叉注意力机制、残差链接、以及动态融合权重三种策略共同权衡视觉与语言信息的重要性,从而更准确地锁定目标物体。

2、跨视角对象对齐模块(XObjAlign)

实验结果:SOTA性能+任意跨视角的泛化能力

ObjectRelator在两大跨视角数据集上进行了验证:

  • Ego-Exo4D:目前最大的Ego-Exo跨视角数据集,涵盖烹饪、维修、运动等六大场景。

  • HANDAL-X:作者构建的新基准,专注于机器人操作场景下的物体分割。

1、主要实验结果与指标

实验结果显示,ObjectRelator在Ego→Exo和Exo→Ego两个任务上都显著超越了所有基线模型,在Small TrainSet上相比于微调后的PSALM模型IoU指标分别提升4.6% 和5.1%,达到SOTA性能。

2、模块有效性验证

消融实验充分验证了各个模块的有效性与必要性。无论是单独引入MCFuse还是XObjAlign,都能带来显著的性能提升。这一结果表明:融入语义信息与强化跨视角一致性是解决该任务的两个正确且相互补的方向。

3、强大的泛化能力

在HANDAL-X数据集上的零样本测试中,使用Ego-Exo4D数据训练的ObjectRelator模型,其性能远超在COCO等传统数据集上训练的模型。

这证明了通过在跨视角数据上进行训练,模型能够学到一种可泛化到全新场景的跨视角理解能力。 同样的,针对HANDAL-X数据集微调后的ObjectRelator模型能达到进一步的性能提醒,超越PSALM的同时达到SOTA的效果。

4、可视化结果

相关内容

热门资讯

AI时代,哪些工作是永远抢不走... 2025年AI大发展,但大多数普通老百姓还没来得及从中感受到好处。AI要真正成为民生正面的东西,它第...
Z世代跨年爱游广州!元旦假期,... 2026年元旦将至,万象更新。值此岁末年初之际,广州将以500余场文旅活动喜迎新年,涵盖精品演出、新...
元旦小长假去台州!吃喝玩乐超有... 元旦小长假,浙江台州已备好一场山海间的狂欢嘉年华!从戏曲盛宴到烟火星空,从古早味美食到创意汉堡,从无...
AI内存需求暴增,铠侠今年涨幅... 日本存储芯片制造商铠侠控股公司凭借人工智能对数据存储的旺盛需求,成为今年全球表现最佳的股票,年内涨幅...
别错过!“萝岗香雪”即将进入最... 南都讯 记者莫郅骅 通讯员 郭晓金 李雨云 12月30日上午,广州萝岗香雪公园热闹非凡,第十六届“萝...
鸿蒙红撞上长沙红 这趟城市色彩... 长沙的红,藏在街头巷尾的烟火里:爱晚亭飘落的枫叶红得热烈,火宫殿红墙映着市井热气,中国结桥的红弧勾勒...
组队学剪辑、玩AI,常平“银龄... 在东莞常平的社区活动室、文化广场乃至长者饭堂里,始终跃动着一抹温暖而充满活力的“银龄色彩”。 过去一...
跨境魔方 AI 外贸员:让AI... 在全球化贸易竞争日趋激烈的当下,外贸企业获客难、成本高、转化效率低等痛点日益凸显。传统获客模式依赖人...
沐曦股份:曦云C500/C55... 12月30日,沐曦股份官微发文,今日腾讯混元宣布推出并开源翻译模型1.5,共包含两个模型:Tence...
CityHike解锁海派新玩法... “原来天桥连廊不仅是过街通道,还藏着徐家汇商圈迭代的密码。”“在市中心徒步能同时看到哥特式建筑、城市...