DynaFLIP：通过三模态动力学引导的表征重新思考机器人感知

论文信息

标题: DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

作者: Jusuk Lee, Seungjae Lee, Jonghun Shin, et al.

发布日期: 2026-05-28

PDF 链接: 下载 PDF

引言：为什么机器人需要 “看见” 变化

当前的机器人学习系统普遍沿用一个假设：视觉感知可以从静态图像识别任务（如 CLIP、DINOv2）中 “借用”，而运动、交互带来的场景变化则完全交给下游策略去处理。这一做法大大简化了模型设计，但也埋下了隐患。在真实操控中，成败往往取决于对 “被操控物体及其接触区域” 的准确把握，而非图像中最显眼的部分。经典的视觉编码器在预训练时从未见过运动信息，因此极易被背景、无关物体吸引，导致在视觉干扰、新物体等分布外场景下性能骤降。

DynaFLIP 的核心主张是：将动力学感知上移至预训练阶段，让视觉编码器不仅知道场景里有什么，还知道场景会在动作的作用下如何改变。为此，作者构建了一种三模态对齐的预训练框架，通过图像变化、语言指令和 3D 运动流来塑造仅以单张图像为输入的视觉表征，从而为下游操控策略提供更可靠、更鲁棒的 “视觉骨架”。

核心方法：三模态对齐的动力学表征学习

DynaFLIP 的关键思路是利用三种富含运动信息的模态——图像过渡（前后帧差异）、语言指令（语义层面的意图描述）和 3D 流（物理空间中的运动轨迹）——作为训练监督信号，把它们的一致性蒸馏到一个纯图像编码器中。三者在功能上互补：图像过渡给出了发生了什么变化，语言解释了为何要发生这个变化，3D 流则提供了与视角无关的物理运动证据。

对齐目标的几何直觉：单纯形体积

为了让三种模态的嵌入在共享空间中彼此靠近，作者采用了单纯形体积这一几何工具。把三个单位球面上的嵌入向量看作空间中的三个点，它们构成的三角形面积越小，代表三者越趋于重合，对齐越充分。相对于以锚点为核心的成对对比学习，这种高阶几何约束能一次性促进三种模态的互对齐。

三角形面积 $A(z_L, z_I, z_F)$ 可以通过边缘向量 $u = z_I - z_L$ , $v = z_F - z_L$ 计算：

A = \frac{1}{2} \sqrt{\langle u,u\rangle \langle v,v\rangle - \langle u,v\rangle^2}.

直接最小化该面积存在两个问题。第一是几何歧义：当三个点近乎共线时，面积虽接近零，但某一模态可能远离另外两者（例如语言与 3D 流反方向，但它们与图像嵌入几乎共线）。第二是平凡坍缩：在没有负样本的情况下，把所有嵌入缩成同一个点就能让面积为零。

余弦正则项与对比框架

为应对几何歧义，作者在面积上加入一个余弦正则项 $-\alpha \langle z_L, z_F \rangle$ ，显式拉近语言与 3D 流嵌入，阻止 “扁平” 共线构型。最终的联合对齐能量为：

E(z_L, z_I, z_F) = A(z_L, z_I, z_F) - \alpha \langle z_L, z_F \rangle.

防坍缩则通过 InfoNCE 形式的对比损失实现：对每个正样本三元组，计算其能量 $E$ ，并与通过打乱模态组合构造的负样本三元组能量进行对比，迫使正样本的能量远低于负样本。这一框架保证了模型必须学习真正有意义的对齐，而非退化为常数。

编码器架构与辅助目标

图像编码器以 DINOv2 为基础并全参数微调，从单帧提取 [CLS] 和平均池化后的 patch 特征，再通过 MLP 融合相邻帧差得到 $z_I$ 。语言编码器采用冻结的 T5，配备可学习的适配器，从 EOS 令牌生成 $z_L$ 。3D 流编码器处理一段 $20\times20$ 关键点网格的 3D 位移序列，经过 CNN 与时序 Transformer，并接收当前图像特征（带停止梯度）作为视觉锚定，输出 $z_F$ 。

除了核心对齐损失，DynaFLIP 还引入两个辅助目标。时序对比损失（ $\mathcal{L}_{\mathrm{tcn}}$ ）要求同一视频中时间上更接近的帧拥有更相似的表示，从而在更长时间尺度上注入轨迹级结构。动作预测损失（ $\mathcal{L}_{\mathrm{act}}$ ）让图像编码器直接从单帧预测 3D 流，用均方误差监督，强迫其内化运动信息。三个损失的加权和构成完整的预训练目标。

大规模三元组数据构建

数据集完全由视频生成：图像过渡直接采样帧对；语言指令由视觉-语言模型根据帧序列生成；3D 流则通过点追踪和深度估计，并借助相机运动补偿转换为与视角无关的 3D 位移。数据集包含 26 万条轨迹，涵盖机器人演示和人类活动视频，确保了场景和交互模式的多样性。

创新点分析

DynaFLIP 的贡献可以总结为三个层面：

问题重定义：将机器人泛化能力的瓶颈部分归因于视觉表征缺失动力学意识，进而把动力学感知提升到感知层面而非仅交给规划控制。
新颖的多模态对齐范式：首次用图像变化–语言–3D 流三元组对单图编码器进行预训练，并通过高阶单纯形体积最小化 + 余弦正则 + 对比学习的三重机制解决几何退化问题。
可复用的视觉骨架：在仿真和真实世界中，DynaFLIP 作为冻结的视觉骨干，可以直接插拔到 MLP、扩散策略乃至 VLA 等多类策略中，取得一致的性能提升，尤其对分布外场景增益显著。

实验结果分析

Q1：是否学到了控制相关的表征？

作者用控制相关性分数 $S_m$ （衡量视觉特征保留多少控制所需的物理状态信息）与下游策略成功率的关系进行了定量验证。在 MetaWorld 和 RLBench 基准上，DynaFLIP 同时获得了最高成功率和最高的 $S_m$ ，处于散点图的 “右上角”。Grad‑CAM 可视化进一步显示，其注意力集中于被操控物体和接触区域，而基线的热力图经常飘向背景或不相关物体。PCA 也展现了更连贯的物体级特征结构。

Q2：能否提升下游策略学习？

在 LIBERO 的语言条件扩散策略实验中，无论冻结还是 LoRA 微调编码器，DynaFLIP 的平均成功率均超越 R3M、VC‑1、CLIP、SigLIP 等强基线。冻结设置下的优势直接证明了动力学感知表征的强可迁移性。

Q3：真实世界操控和分布外鲁棒性如何？

将 DynaFLIP 的冻结图像编码器通过轻量级视觉注入模块接入 $\pi_{0.5}$ VLA 模型，在不调整 VLA 基础参数的前提下，三个真实机器人任务（拣放、倾倒、展布）的成功率均最高。更关键的是，在视觉空间干扰和语义干扰两类分布外条件下，DynaFLIP 相对基线的提升尤为明显（例如 +22.5%）。这源于它对控制区域的锁定，以及语言模态带来的指令跟随能力。

消融研究证实：移除 3D 流或语言都会使性能下降；单独用锚点对齐替代单纯形体积对齐导致大幅下滑；去掉负样本则触发坍缩，性能接近随机；余弦正则项和两个辅助损失各自都提供了稳定且可量化的增益。

实践应用建议与未来方向

对于从事机器人操控的研发团队，DynaFLIP 提供了一条清晰的技术升级路径：在复用现有视觉基础模型的同时，为其补充动力学预训练。具体而言：

若已有预训练好的图像编码器（如 DINOv2），可依照本文方法构建立方体数据并用对比损失进行二次预训练，获得动力学感知版本，再接入已有策略网络。
对于多模态 VLA 系统，可采用类似 PVI 的轻量注入方式将 DynaFLIP 作为辅助视觉分支，无需重新训练整个动作模型，即可增强对操控区域的关注。
实际部署时，尤其在有大量视觉干扰或指令变化的非结构化环境中，优先考虑此类动力学感知表征，可减少因背景或新物体引发的失败。

未来工作可以朝几个方向深入：

数据规模扩展：当前 26 万条轨迹仍远小于 CLIP 等的训练量，若能在更大规模的人类活动与机器人视频上预训练，有望进一步释放潜力。
关键点采样优化：3D 流目前均匀采样，包含许多任务无关运动。未来可基于物体检测或手部检测自适应选取关键点，降低噪声。
与更多策略架构融合：探索 DynaFLIP 在强化学习、基于模型的控制等不同范式中的应用，并研究其内部表征对物理因果关系的学习程度。

总结与展望

DynaFLIP 通过 “三模态动力学引导” 重新思考了机器人视觉表征的学习方式。它不再将感知等同于静态识别，而是让视觉编码器内化 “世界如何因动作而变” 的知识。凭借优雅的单纯形几何约束、互补的余弦正则与对比学习机制，该方法成功解决了多模态对齐中的退化问题，产出的图像表征在多种仿真与真实操控任务中均表现出色。这项工作不仅为机器人视觉提供了一个可立即落地的预训练方案，也为具身智能中的 “感知–行动” 耦合指出了新的设计哲学：感知应携带预测世界变化的能力，而不仅仅是记录世界的样貌。