当你点开一段AI生成的视频,画面中两个台球相撞,却像果冻一样互相穿透;一个摆锤左右摇晃,却完全无视地心引力的存在;一个皮球从斜坡滚下,却在半空中突然改变方向。这些违反物理规律的"灵异"画面,正是当前视频生成模型面临的尴尬现实。
由浙江大学、蚂蚁集团和浙江实验室联合开展的研究团队,针对这一问题提出了名为PhysRVG的创新框架。研究团队发现,尽管现代视频生成模型在画面质量上已经相当出色,但在物理真实性方面却存在明显短板。关键问题在于,这些模型在训练时只关注"画面像不像",却忽略了"运动对不对"这个更根本的问题。
研究的核心创新在于首次将物理碰撞规则直接融入强化学习过程,而不是像以往那样把物理规律当作可有可无的参考条件。团队提出的"模仿-发现循环"(MDcycle)机制,让模型能够在学习视觉表现的同时,真正内化物理知识。为了验证这一方法的有效性,研究团队还专门构建了PhysRVGBench测评基准,包含700个涵盖碰撞、自由落体、钟摆和滚动四种基础运动类型的视频样本。
这项研究的意义远不止于让AI视频"看起来更真实"。当视频生成模型真正理解物理规律后,它们在科学模拟、机器人训练、影视制作等领域的应用潜力将大大提升。毕竟,现实世界的一切运动都遵循物理定律,只有掌握了这些规律的AI,才能真正成为我们可靠的助手。对于普通用户来说,这意味着未来我们生成的AI视频将更加自然流畅,不再出现那些让人"出戏"的物理错误。
问题的根源:为什么AI视频总是"违背物理"
要理解PhysRVG解决的问题,我们需要先搞清楚当前视频生成模型为什么会在物理层面"翻车"。这个问题可以用做菜来类比:传统的视频生成模型就像一个只看菜谱照片学做菜的厨师,它们通过观察大量视频样本,学会了如何生成看起来逼真的画面,却从未真正理解食材之间的化学反应和烹饪原理。
当前主流的视频生成模型基于Transformer架构,采用"预训练-微调"的训练范式。在这个过程中,模型的目标是在像素层面重建视频内容,追求的是"生成的画面和真实画面有多相似"。然而,物理规律在这个过程中被当作次要因素。举个例子,当模型看到一段台球碰撞的视频时,它学到的是"台球是圆的""桌面是绿色的""球会移动",却没有真正理解"两个球相撞时动量守恒""球的轨迹遵循抛物线""摩擦力会让球减速"这些物理本质。
这种训练方式导致的结果就是,模型生成的视频在静态画面上可能非常精美,但一旦涉及物体运动,特别是物体之间的相互作用,就容易露馅。常见的错误包括:物体在碰撞时发生重叠或穿透、运动轨迹不连贯、速度变化不合理、物体在不该停止的地方突然静止等等。这些问题的根源都在于,模型把物理规律当作"可选的优化目标",而不是"必须遵守的硬约束"。
更麻烦的是,即使研究者意识到这个问题,想要通过后期训练来补救也很困难。传统的微调方法会把物理知识当作一种"条件",告诉模型"你应该这样生成",但在实际优化过程中,如果违反物理规律能让像素层面的损失函数下降,模型仍然会选择违反物理规律。这就像告诉学生"考试要诚信",但如果作弊不会被发现还能提高分数,有些学生还是会选择作弊。问题的关键在于,需要建立一个机制,让遵守物理规律成为模型无法绕过的"铁律",而不仅仅是一个"建议"。
PhysRVG的核心思路:用强化学习"硬性"执行物理规则
PhysRVG的创新之处在于首次将强化学习引入视频生成的物理建模中,并且是以一种"硬约束"的方式。这里的关键概念是"刚体运动"——也就是物体在运动过程中形状不发生改变的运动方式,比如台球碰撞、摆锤摆动、皮球滚动等。这类运动遵循经典的牛顿力学,具有两个重要特性:可观测性(运动轨迹可以精确测量)和确定性(给定初始条件,后续运动唯一确定)。
在传统的计算机图形学中,物理模拟引擎可以轻松计算这些运动。输入初始速度、质量、摩擦系数等参数,引擎就能用牛顿公式算出物体每一帧的位置。然而,视频生成模型走的是完全不同的路线——它们通过学习大量视频数据,试图在高维像素空间中"猜测"物体应该怎么动。PhysRVG的做法是在这两者之间架起桥梁:利用物理模拟的精确性来指导数据驱动的学习。
具体来说,研究团队设计了一套"物理导向的奖励函数"。当模型生成一段视频后,系统会自动追踪视频中物体的运动轨迹,然后将这个轨迹与真实物理规律计算出的"标准答案"进行对比。对比的指标包括两个方面:轨迹偏移(Trajectory Offset,简称TO)和交互重叠度(Intersection over Union,简称IoU)。轨迹偏移衡量的是"物体该在哪里,实际在哪里",而交互重叠度关注的是"碰撞发生时,两个物体的位置关系对不对"。
这套奖励函数的妙处在于,它不是主观的"看起来像不像",而是客观的"算出来对不对"。这就像考数学题,不是让老师凭感觉打分,而是把答案代入公式验算。模型生成的视频如果违反物理规律,奖励就会降低;反之,越符合物理规律,奖励越高。通过强化学习,模型会不断调整自己的生成策略,朝着获得更高奖励的方向优化,最终学会生成物理上合理的运动。
研究团队特别强调了碰撞检测的重要性。在训练初期,他们发现模型有一种"投机取巧"的倾向:为了让轨迹偏移更小,模型会选择生成简单的匀速直线运动,避开复杂的碰撞场景。这是一种典型的"奖励破解"现象——模型找到了一种看似能提高分数、实际上却违背训练意图的策略。为了解决这个问题,研究团队在奖励函数中加入了碰撞权重:碰撞发生的时刻及其前后几帧,会获得更高的权重。这样一来,模型必须正确处理碰撞,才能获得高分,无法再通过回避碰撞来"作弊"。
模仿-发现循环:在稳定与探索之间找平衡
尽管物理导向的奖励函数听起来很理想,但在实际训练中,纯粹的强化学习会遇到两个棘手的问题。第一个问题是收敛困难:当训练样本较少或者模型初始状态较差时,强化学习很难稳定收敛。第二个问题是早期不稳定:即使增大训练批次,在训练的最初阶段,模型生成的视频质量也可能很差,导致奖励信号极其微弱和混乱。
研究团队通过大量实验观察到一个有趣现象:在纯强化学习训练下,模型在简单样本上表现越来越好,在困难样本上却越来越差。原因在于,对于那些复杂的物理场景,模型在有限的探索尝试中无法生成足够好的结果,也就无法获得有效的学习信号。这就像让一个从未接触过台球的新手,只给他10次尝试就要求打出高质量的击球,结果只能是乱打一通,什么也学不到。
为了解决这个问题,研究团队提出了"模仿-发现循环"(MDcycle)框架。这个框架的核心理念是动态平衡:在训练早期和困难样本上,更多依赖"模仿"策略,提供像素级的精细指导;随着训练推进和模型能力提升,逐渐转向"发现"策略,鼓励模型通过强化学习自主探索物理规律。
具体的运作机制是这样的:每次训练时,模型会针对同一个输入生成一组视频样本(比如20个),然后计算这组样本的平均轨迹偏移。如果平均偏移超过预设的阈值,说明模型在这个案例上表现不佳,此时系统会启动"模仿分支",添加传统的Flow Matching损失函数,提供详细的像素级监督。如果平均偏移低于阈值,说明模型已经具备基本的生成能力,此时主要依靠"发现分支",也就是基于物理奖励的强化学习。
这种设计的巧妙之处在于,它让训练过程变得自适应。在模型能力较弱的时候,提供更多的"手把手"指导;在模型能力较强的时候,给予更大的探索空间。这就像教孩子骑自行车,刚开始要扶着车后座稳定平衡,等孩子掌握了基本技巧后再放手让他自己练习。实验数据显示,MDcycle相比纯强化学习,不仅收敛更快,而且最终达到的性能更高。
研究团队还发现,阈值的设定需要精心权衡。阈值太小,模仿分支介入过多,模型会过早收敛到一个较低的水平;阈值太大,模仿分支介入太少,训练又会变得不稳定。通过大量实验,他们找到了一个合适的中间值。此外,MDcycle采用了类似LoRA的参数高效微调策略,而不是全参数训练,这进一步提升了训练稳定性。全参数强化学习在视频生成这样的高维空间中极易出现训练崩溃,而参数高效方法能够在保持探索能力的同时避免过度调整。
PhysRVGBench:如何客观评价物理真实性
要验证PhysRVG是否真的有效,需要一套科学严谨的评测体系。然而,现有的视频生成评测方法大多关注视觉质量(画面清不清晰、颜色对不对)和语义一致性(内容符不符合描述),却缺乏针对物理真实性的量化指标。研究团队为此专门构建了PhysRVGBench测评基准,包含700个精心标注的视频样本。
这些视频来源多样:既有开源数据集(如PISA),也有从互联网收集的素材,还有团队自己在视频游戏中录制和用摄像设备拍摄的真实实验。所有视频都覆盖四种基础的刚体运动类型:碰撞、自由落体、钟摆和滚动。每个视频都经过人工标注:研究人员在视频第一帧中标记出物体的中心坐标,然后利用SAM2(一种先进的视频分割工具)自动生成整个视频序列中物体的运动掩码。
基于这些运动掩码,研究团队设计了两个核心评价指标。第一个是交互重叠度(IoU),计算方式是将生成视频中物体占据的区域与真实视频中物体占据的区域进行比对,看它们的重叠面积占总面积的比例。这个指标能够反映物体位置的准确性,特别是在碰撞场景中,能够检测出物体是否发生了不合理的穿透或分离。
第二个指标是轨迹偏移(TO),这是研究团队新提出的评价方法。具体做法是提取视频每一帧中物体的中心坐标,形成一条运动轨迹,然后计算生成轨迹与真实轨迹之间每一帧的距离,最后取平均值。轨迹偏移越小,说明生成的运动越接近真实物理规律。为了强调碰撞等关键时刻的重要性,研究团队还引入了加权机制:碰撞发生时及其前后的帧会获得更高的权重,确保模型不能忽视这些关键的物理交互。
这套评测体系的优势在于完全客观且可量化。不需要人工主观判断"这个运动看起来合不合理",而是直接用数学公式计算"这个运动偏离正确轨迹多少像素"。这就像体育比赛中的电子计时系统,能够精确到毫秒,消除人为判断的误差和偏见。实验结果显示,PhysRVG在IoU和TO两个指标上都显著优于现有的所有视频生成模型,而且在传统的视觉质量评测(如VBench)中也保持了出色的表现。
研究团队还特别注意到一个有趣的现象:视频到视频(V2V)生成模型普遍比文本到视频(T2V)生成模型在物理真实性上表现更好。原因在于,给定初始几帧视频作为输入,能够为模型提供更可靠的运动线索,相比之下,纯文本描述往往信息量不足且容易产生歧义。PhysRVG正是建立在V2V框架之上,充分利用了这一优势。
实验验证:从定量到定性的全方位评测
研究团队进行了广泛的对比实验,将PhysRVG与当前最先进的视频生成模型进行了全面比较,包括CogvideoX、HunyuanVideo、Kling2.5、Wan2.2(5B和14B两个版本)以及Magi-1等模型。实验在多个维度展开,既有客观的量化指标,也有直观的视觉对比。
在量化评测方面,PhysRVG在PhysRVGBench上的表现最为突出。在IoU指标上,PhysRVG达到0.64,相比第二名Magi-1的0.27提升了137%;在TO指标上,PhysRVG为15.03,远低于第二名Kling2.5的103.22,降幅达到85%。这些数字背后的含义是,PhysRVG生成的视频中物体运动轨迹与真实物理规律的偏差,仅为其他模型的十分之一左右。
更有说服力的是定性对比。研究团队展示了多个典型场景的生成结果,包括台球碰撞、多米诺骨牌倒塌、牛顿摆、斜坡滚球等。在这些场景中,其他模型经常出现各种物理错误:台球碰撞后发生粘连或穿透、多米诺骨牌倒塌时牌与牌之间出现重叠、牛顿摆的摆球在半空中突然停止、滚球在斜坡上静止不动等。有些错误甚至相当离谱,比如在台球场景中突然出现一个人形,或者玻璃球在运动过程中变色变形。
相比之下,PhysRVG生成的视频在物理层面保持了良好的一致性。台球碰撞时遵循动量守恒,摆球的周期性运动符合钟摆规律,滚球的速度变化体现了重力和摩擦力的作用。研究团队特别强调,所有对比结果都是使用单一随机种子生成的,没有经过任何人工挑选,确保了评测的公平性。为了让结果更加可信,他们在补充材料中提供了所有场景的完整视频,供读者自行验证。
消融实验进一步揭示了PhysRVG各个组件的贡献。研究团队逐一移除框架中的关键元素,观察性能变化。结果显示,如果只用传统的全参数微调,IoU仅为0.38,TO为46.27;加入强化学习后,性能提升到IoU 0.61和TO 17.25;而完整的MDcycle框架则达到最优的IoU 0.64和TO 15.03。碰撞检测的加权机制也被证明至关重要:移除这一设计后,模型会回归到生成简单直线运动、回避复杂碰撞的策略。
研究团队还测试了多个超参数的影响,包括SDE采样窗口、噪声强度、MDcycle阈值等。结果表明,在高噪声区域使用随机采样能够增强语义学习和整体稳定性;适度的噪声强度(σt=1.0)鼓励模型积极探索物理知识;合理的阈值(Threshold=8)让模型能够平衡模仿与发现。这些发现为未来在不同任务上应用类似框架提供了有价值的参考。
泛化能力:从训练场景到真实世界
PhysRVG的一个令人惊喜的特性是它的泛化能力。尽管训练数据主要包含相对简单和规范的物理场景,但模型学到的物理规律能够迁移到更复杂、多样化的真实世界情境中。这种泛化能力证明,模型并非简单地记忆训练样本,而是真正理解了背后的物理原理。
在碰撞场景中,训练数据主要是标准的台球、多米诺骨牌等规则物体的碰撞,但PhysRVG生成的视频能够处理不规则形状物体的碰撞、多个物体的连续碰撞、不同材质物体的交互等复杂情况。研究团队展示的一个案例中,多个台球在桌面上发生连锁碰撞,每次碰撞的角度、速度变化都符合动量守恒和能量守恒定律,整个过程自然流畅。
在钟摆场景中,训练数据仅包含简单的单摆(比如挂钟的摆锤或单个悬挂的球体),但模型能够将这种周期性运动规律推广到其他类似场景。补充材料中展示了一个儿童秋千的生成视频,尽管秋千的结构和运动幅度与训练中的钟摆有明显差异,但模型仍然准确地捕捉到了往复摆动的物理特性,包括摆动周期、最高点的短暂停顿、以及重力带来的加速效应。
自由落体场景的泛化表现同样出色。训练时使用的是标准的垂直下落实验,但在测试中,模型不仅能正确模拟物体的下落过程,还能合理预测落地后的反弹或停止。一个典型例子是物体从高处掉落到草地上,模型生成的视频中,物体不仅遵循加速下落的规律(符合重力加速度),落地后还出现了合理的小幅反弹和最终静止,展现出对碰撞响应和能量耗散的理解。
滚动场景的泛化能力或许最能体现模型对物理规律的深层把握。训练数据包含的是简单的斜坡滚球,但模型能够处理复杂的曲线轨道。在一个U型轨道的测试案例中,球体在轨道中经历了多次加速和减速:下坡时重力做功加速,上坡时克服重力减速,整个过程中能量转换和速度变化都符合机械能守恒。更令人印象深刻的是,模型还能处理带有摩擦力的情况,生成的视频中球体最终会因能量耗散而停止,而不是无限滚动。
研究团队还测试了一些完全超出训练分布的场景,比如石柱阵列的倒塌。尽管训练数据中没有任何类似的大型结构物倒塌场景,模型仍然能够生成相对合理的结果:石柱按照合理的顺序依次倒下,每根石柱的倒塌都遵循旋转动力学,展现出类似多米诺效应的连锁反应。虽然细节上可能不如专业的物理引擎精确,但已经远超其他纯数据驱动的视频生成模型。
这种泛化能力的来源在于PhysRVG的训练范式。强化学习结合物理导向的奖励函数,迫使模型学习的不是"这种场景应该怎么动",而是"符合物理规律的运动应该是什么样的"。这是一种更抽象、更本质的知识表征,因此能够跨越具体场景的差异,应用到新的情境中。
技术细节:两阶段训练与参数高效策略
PhysRVG的训练过程采用了精心设计的两阶段策略,每个阶段都有明确的目标和优化重点。这种分阶段设计不仅提升了训练效率,也确保了最终模型的性能和稳定性。
第一阶段是视频到视频的基础能力构建。研究团队从预训练的Wan2.2 5B文本到图像视频(TI2V)模型出发,这个模型已经具备了强大的视觉生成能力。他们将模型的图像条件输入替换为视频的前5帧,然后在包含约1000万个样本的混合数据集上进行全参数微调。这个数据集融合了开源资源(如Panda70M、InternVid、WebVid-10M)和团队自己收集的专有数据(包括游戏录像、竞技比赛录像和实验室拍摄素材)。第一阶段的核心目标是让模型学会基本的视频续写能力,为后续的物理知识注入打下基础。训练时长约为16000步。
第二阶段是物理感知能力的强化训练。这一阶段的数据规模大幅缩减,仅使用约700个高质量的刚体运动视频,其中约50个被保留作为测试集,完全不参与训练。所有训练样本都经过精心标注:每个视频的第一帧中标记出物体的中心坐标,碰撞场景中标记两个物体(主动物体和被动物体),其他场景标记一个主要运动物体。基于这些标注,系统使用SAM2自动生成运动掩码,然后计算轨迹和碰撞信息。
在第二阶段,研究团队没有采用全参数训练,而是使用了受LoRA启发的参数高效微调策略。这个选择至关重要:实验表明,全参数的强化学习训练在视频生成这样的高维空间中极其不稳定,奖励曲线会在训练初期就崩溃,无法恢复。即使使用32个GPU、每个GPU一组样本、每组20个样本(有效批量大小640)这样的大规模配置,全参数训练仍然无法稳定收敛。参数高效策略通过限制可调整参数的数量,大幅降低了优化空间的复杂度,从而避免了训练崩溃。第二阶段的训练时长为250步,相比第一阶段要短得多,这也体现了物理知识注入的高效性。
在采样策略上,PhysRVG使用了混合的ODE-SDE方案。ODE(常微分方程)采样确定性强,适合生成质量要求高的场景;SDE(随机微分方程)采样引入了探索性噪声,有利于强化学习中的策略改进。研究团队发现,在高噪声阶段(时间步长的75%-100%)使用SDE采样效果最好,这表明在生成过程的早期阶段进行随机探索能够增强语义学习和整体稳定性。噪声强度σt设置为1.0,相比某些研究(如DanceGRPO中使用0.3)要高,这是因为V2V任务提供了无偏的初始化,能够承受更强的探索噪声而不影响稳定性。
训练配置的另一个关键细节是在同一组内使用相同的初始噪声。这种"共享噪声"策略在相对较小的批量大小下进一步增强了训练稳定性。原理在于,当多个样本从相同的噪声起点出发时,它们之间的差异主要来自模型的策略选择,而非随机性,这让优势估计更加准确可靠。此外,PhysRVG在MDcycle训练期间不使用分类器自由引导(CFG)。CFG虽然能提升生成质量,但会使计算成本翻倍,并可能引入训练不稳定性。在V2V设置下,丰富的视频输入提供了足够的上下文信号,关闭CFG对视觉质量的影响可以接受。不过,研究团队强调,在文本到视频(T2V)任务中不建议移除CFG,因为文本信息不如视频丰富,关闭CFG会导致质量明显下降。
整个训练过程使用32块80G的H20 GPU,分布在4个节点上。优化器选用Adam,学习率为1×10^-5,权重衰减为0.0001。采样步数固定为16步,这是效率和质量之间的折中。所有这些超参数都经过了系统的消融实验验证,确保达到最优配置。
局限性与展望:从刚体到柔性,从单物体到复杂系统
尽管PhysRVG在刚体运动模拟上取得了显著进展,但研究团队也坦诚地指出了当前框架的局限性,并对未来的改进方向提供了思考。
当前最明显的局限在于,PhysRVG的奖励函数主要关注物体的运动轨迹,对于与主要运动关系不大的视觉属性监督不足。补充材料中展示了几个典型的失败案例:台球碰撞后颜色发生变化、球体在转弯时画面中突然多出一个球、其他背景物体出现不合理的变形等。这些错误的根源在于,奖励函数只计算主要运动物体的轨迹偏移,不涉及颜色、形状、数量等其他属性,因此模型在这些方面出错时不会受到惩罚。
这个问题揭示了一个更深层的挑战:如何设计一个全面、多尺度的物理真实性评价体系。理想的评价体系不仅要考察运动轨迹,还要涵盖物体的完整性(不分裂、不融合)、材质的一致性(不变色、不变形)、场景的整体协调性(不出现无关物体)等多个维度。然而,将所有这些因素融入一个可计算的奖励函数极其困难,这需要更精细的物体表征和更强大的计算能力。
第二个局限是PhysRVG目前只处理刚体运动,而现实世界中大量的物理现象涉及柔性体、流体、软体等更复杂的物理行为。刚体的特点是形状固定,运动由牛顿力学完全描述,但柔性体会发生弹性形变,流体会流动和飞溅,软体会大幅度变形。这些现象的物理建模远比刚体复杂,需要有限元方法、流体动力学、非线性力学等更高级的物理理论。扩展PhysRVG框架来处理这些现象,不仅需要更复杂的奖励函数,也需要更强大的模型架构和更大规模的训练数据。
第三个局限涉及计算成本。虽然PhysRVG使用了参数高效的微调策略,但强化学习本身的计算开销仍然不小。每次训练迭代需要为同一输入生成多个样本(实验中使用20个),然后逐个计算奖励,这比传统的监督学习慢很多。即使在32个GPU的配置下,完整的两阶段训练也需要相当长的时间。对于资源受限的研究者和开发者来说,这可能是一个障碍。未来的改进方向之一是探索更高效的采样和评价策略,比如使用模型集成减少每组的样本数,或者开发更快速的近似奖励计算方法。
第四个挑战是数据标注的成本。PhysRVGBench虽然只有700个样本,但每个样本都需要人工标注物体坐标,这个过程耗时且需要一定的专业知识。对于更大规模的数据集或更多样化的物理场景,这种人工标注方式难以扩展。一个可能的解决方案是开发自动标注工具,利用目标检测或跟踪算法自动识别和定位运动物体,然后人工审核和修正,以降低标注成本。
研究团队对未来的改进方向提出了几点展望。第一是扩展物理建模的范围,从刚体运动扩展到柔性体、流体、粒子系统等更丰富的物理现象。第二是提升模型的泛化能力,不仅能处理训练中见过的场景,还能迁移到完全陌生的物理环境,实现真正的零样本物理推理。第三是探索与专业物理引擎的深度融合,比如将神经网络与传统的有限元分析或粒子模拟相结合,充分发挥两者的优势。第四是开发自动化的阈值调整机制,让MDcycle框架能够根据训练进展动态调整模仿和发现的平衡,而不需要人工设定固定的超参数。
从更宏观的角度看,PhysRVG代表了视频生成领域的一个重要转向:从纯粹的数据驱动转向物理知识引导的学习。这种范式转变不仅提升了生成视频的物理真实性,也为AI模型理解和模拟真实世界提供了新的思路。未来,随着物理建模能力的进一步增强,视频生成模型有望在科学模拟、工程设计、虚拟现实等领域发挥更大的作用,真正成为人类理解和改造世界的得力助手。
PhysRVG的意义不仅在于让AI生成的视频"看起来更真",更在于让AI开始"理解"物理世界的运行规则。当机器不再满足于模仿表面的像素模式,而是深入到规律和原理的层面,人工智能离真正的"智能"也就更近了一步。
END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q&A
Q1:PhysRVG和传统视频生成模型的根本区别是什么?
A:传统视频生成模型只关注画面的视觉相似性,通过学习大量视频数据来模仿像素模式,但不理解物体运动背后的物理规律。PhysRVG则引入了物理导向的强化学习框架,用客观的物理指标(如轨迹偏移和碰撞检测)作为奖励信号,强制模型学习和遵守牛顿力学等物理规律。这就像前者是照着菜谱做菜,后者则理解食材的化学反应原理。
Q2:PhysRVG的模仿-发现循环机制是如何工作的?
A:模仿-发现循环(MDcycle)通过动态平衡两种训练策略来稳定强化学习过程。当模型在某个样本组上表现不佳时(平均轨迹偏移超过阈值),系统启动"模仿分支",提供像素级的精细指导帮助模型学习基础视觉模式。当模型表现较好时(偏移低于阈值),主要依靠"发现分支",通过物理奖励驱动的强化学习让模型探索和内化物理规律。这种机制让训练过程自适应调整,既避免了纯强化学习的不稳定性,又保留了足够的探索空间。
Q3:PhysRVG生成的视频在哪些方面仍有不足?
A:尽管PhysRVG在刚体运动轨迹方面表现出色,但在与主要运动关系不大的视觉属性上仍有缺陷。常见问题包括物体碰撞后颜色改变、画面中突然出现或消失额外物体、背景元素不合理变形等。这是因为当前的奖励函数只评估运动轨迹,不涉及颜色、形状、数量等其他属性。此外,PhysRVG目前只处理刚体运动,对于柔性体、流体等更复杂的物理现象尚未覆盖。未来需要开发更全面的多尺度物理真实性评价体系。