想象感知令牌增强多模态语言模型的空间推理能力

论文信息

标题: Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models

作者: Mahtab Bigverdi, Lindsey Li, Weikai Huang, et al.

发布日期: 2026-06-02

PDF 链接: 下载 PDF

引言：当视觉语言模型需要 “想象力”

视觉语言模型（VLMs）在识别物体、描述场景等任务上已展现出惊人能力，但一旦涉及真正的空间推理——比如 “走到房间另一端后，椅子会在你的左边还是右边？”——它们常常表现挣扎。这不是因为模型 “看不见”，而是因为关键信息根本就不在输入图像中。许多空间问题需要一种想象力感知：模拟一个未见的视角，想象一条穿越遮挡空间的路径，或将多个局部观察整合为一个连贯的空间地图。

人类天生就擅长通过想象力完成这类推理。但现有的 VLM 方法主要通过对可见结构的细化来辅助推理，而非预测缺失的空间结构。华盛顿大学联合艾伦 AI 研究所、微软和 OpenAI 的研究团队提出了一个新颖的解决方案：想象力感知令牌（Imaginative Perception Tokens, IPT）——一种中间感知表征，能够将 VLM 在替代空间配置下会感知到的内容外化出来，同时保持与观察输入的一致性。

核心方法：让模型 “画出” 看不见的视角

问题形式化

IPT 方法将空间推理分解为两阶段生成过程。给定观察图像 $\mathcal{I}_{obs}$ 和空间查询 $Q$ ，模型首先生成想象力感知令牌 $\hat{I}_{imag}$ ：

P(\hat{I}_{imag}|\mathcal{I}_{obs}, Q)

然后基于这些令牌产生最终答案：

P(A|\mathcal{I}_{obs}, Q, \hat{I}_{imag})

这种设计的精妙之处在于：想象力的输出不是随意幻想，而是必须与观察到的场景保持一致——模型需要预测在给定不完整空间证据的条件下，我们会感知到什么。

架构与技术实现

研究团队选择 BAGEL 作为基础模型，这是一个统一的解码器专用 Transformer，原生支持交错的图像理解与生成。BAGEL 采用混合 Transformer 专家（MoT）设计，包含两个专家模块：一个优化用于多模态理解，另一个用于生成。两者通过共享的自注意力机制在同一令牌序列上运行，使得文本、理解令牌和生成令牌能够无损地共存于单一上下文窗口。

训练目标采用多任务损失 $\mathcal{L}_{total} = \lambda_{fm}\mathcal{L}_{fm} + \lambda_{lm}\mathcal{L}_{lm}$ 。其中流匹配损失 $\mathcal{L}_{fm}$ 负责学习从高斯噪声转换为目标视觉隐变量的速度场，而语言建模损失 $\mathcal{L}_{lm}$ 则最小化答案令牌的负对数似然。

在推理时，模型有两种模式：一是文本模式（不生成中间图像），二是想象模式（先生成想象视图的 VAE 令牌，再基于此回答）。值得注意的是，即使推理时不生成图像，训练期间的想象监督已被证明能强化模型的内部空间表征。

三个核心任务的精心设计

研究团队构造了三个需要想象力感知的任务，每个都配备约 20K 训练样本和人工筛选的评估基准：

视角采择（Perspective Taking）：给定第一人称视图和标记的目标位置，模型需回答 “移动到标记位置并向左转 90 度后，某物体会在左侧还是右侧？”。训练目标是新视角渲染图像。
路径追踪（Path Tracing）：给定俯视地图和标记路径，模型需想象在路径中点的地面视角会看到什么。中间监督信号是该位置的第一人称侧视图。
多视图计数（Multiview Counting）：给定同一环境的多个第一人称帧，模型需回答 “该区域有多少把椅子？”，要求它能整合局部观察、消解遮挡并去重。中间目标是俯视图鸟瞰地图（BEV）。

创新点与贡献

从 “看到什么” 到 “可能看到什么” 的范式转换

此前的方法（如 Visual Sketchpad、MVoT）主要处理和细化已可见的结构，而 IPT 首次将想象力感知提升为一类明确的中间推理任务。这种范式转换具有认识论意义：它承认许多空间推理问题本质上是预测性的而非识别性的。

为 “想象力” 提供可监督的中间层

为每个空间想象任务配对 ground-truth 的中间图像——如新视角渲染、侧视图、整合的俯视地图——使想象力的训练变得可操作化。这提供了一个原则性的标准来判断何时需要中间视觉思考，以及如何监督它们。

揭示语言与视觉推理的模态不匹配

实验发现，文本链式思维（Text CoT）在 PET 任务上准确率从 97.5% 骤降至 83.1%，在 PT 任务上从 65.7% 降至 49.7%，在某些情况下甚至有害。这深刻揭示了模态不匹配问题：视点变换、遮挡和跨视图对应在自然语言中难以序列化，产生的文本轨迹引入了噪声而非有用结构。IPT 通过直接在视觉模态中表示这些关系，绕过了这一根本限制。

实验结果深度解读

想象力监督的独特价值

在 AI2-THOR 基准上，IPT 训练显著优于仅标签训练和 Text CoT。在多视图计数任务上，IPT 达到 67.3%（vs. 标签仅有的 63.9% 和 Text CoT 的 62.3%）。更引人注目的是，这些改进在推理时甚至不需要显式生成图像——在视角采择任务上，IPT 的纯答案推理模式就达到了 96.8% 的准确率，与带有 ground-truth 图像的 96.7% 几乎持平。

这表明想象力监督的作用不在于产生像素完美的中间图像，而在于在训练中培养模型的内在空间表征能力。正如一位用图像辅助理解几何题的学生，经过足够训练后可能不再需要画出每一步的辅助线。

隐空间分辨率的控制性实验

消融实验揭示了一个精细的权衡：在 MVC 任务上，隐空间尺寸从 Latent-4（64×64）提升到 Latent-64（1024×1024）时，准确率从 53.5% 稳步提升至 63.1%；但在 Habitat 跨域评估中，性能在 Latent-32 处达到峰值（87.0%），随后略降。这暗示更高分辨率可能导致对 AI2-THOR 外观统计的轻微过拟合，为未来的域泛化研究提供了方向。

跨域迁移和基准扩展

混合训练策略（50% IPT + 50% 仅标签）在真实场景的路径追踪上达到 58.6%，超越了仅标签的 54.7%。更值得关注的是，在多视图计数数据上进行微调后，模型在 ScanNet（40.5%→52.0%）、MindCube（39.5%→47.5%）等独立空间基准上也获得一致提升，表明所学的空间推理能力具有广泛可迁移性。

实践应用建议

对量化交易领域的启示

空间推理能力对量化交易并非无关紧要。在高频交易中，理解订单簿的动态几何形状、模拟不同市场状态下的流动性景观，本质上是将多维时间序列映射为空间的认知操作。IPT 方法的启示在于：可以设计市场想象力令牌——训练模型生成在不同假设条件下的中间流动性表征，再基于此做出预测。这比纯文本分析更贴近市场数据的本质结构。

对 AI 系统构建的方法论意义

该研究为需要组合式空间推理的 AI 系统提供了一个方法论模板：识别那些 “答案不能仅从输入读取” 的问题类别，为其设计 ground-truth 的中间感知表征，然后在统一多模态框架中进行监督训练。这种方法可推广至机器人导航、增强现实场景理解，以及任何需要从部分观察构造完整空间模型的领域。

局限性与未来方向

当前工作存在若干开放问题。首先，想象质量在路径追踪等复杂任务上仍是瓶颈——当给予 ground-truth 想象力时，准确率从 50.4% 跃升至 86.7%，表明生成质量有 36 个百分点的改善空间。其次，目前的想象令牌是任务特定的（旋转视图、侧视、俯视图），尚未探索统一的想象力表征。第三，从隐空间尺寸到域泛化的权衡暗示着更系统化的跨域想象训练策略的需求。

未来方向可能包括：设计支持零样本想象的统一表征架构，探索想象力令牌的链式组合以支持多步空间推理，以及将 IPT 与主动视觉探索范式结合，使模型能自主决定何时需 “想象” 以及想象什么。

总结

这篇工作通过提出想象力感知令牌（IPT），将空间推理从 “描述所见” 重新定义为 “预测可能所见”。三个精心构造的任务、系统的基准比较和严格的消融实验共同证明：当 VLM 被教会生成与输入一致但不在输入中的中间视觉表征时，它的空间理解能力获得显著提升——即使最终推理中不显式使用这些表征。这项工作不仅提供了一个具体的技术方案，更重要的是为多模态模型的推理机制提供了一个新的认识论框架：真正的空间理解，始于对未见结构的想象。