ATLAS:代理式视觉推理还是潜在视觉推理?一词足矣。

arXiv: 2605.15198v1

论文信息

标题: ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both

作者: Ziyu Guo, Rain Liu, Xinyan Chen, et al.

发布日期: 2026-05-14

arXiv ID: 2605.15198v1

PDF 链接: 下载 PDF

研究背景与动机

视觉推理往往需要借助中间视觉状态来完成,例如几何题中画辅助线、游戏中更新棋盘状态。最近的主流方案大致分为两种:一是智能体式(agentic)推理,模型生成代码或调用外部工具来操作视觉输入;二是潜层式(latent)推理,模型用隐藏嵌入在内部迭代思考,避免生成图像或冗长文本。然而,智能体式方法因调用外部模块而产生上下文切换延迟,而潜层式方法则难以跨任务泛化,且其循环依赖破坏了标准自回归并行训练范式。统一模型直接生成像素级图像虽直观,但计算开销巨大,架构非易行。

在此背景下,论文《ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both》提出了一个全新的框架:用单个离散的“词”即功能化令牌,既充当智能体操作又作为潜层推理单元。该设计意图取两边之长而避其短——保持紧凑高效的同时,完美兼容标准自回归序列建模与可扩展的训练流程。

核心方法:功能化令牌与 ATLAS 框架

ATLAS 的核心思想是将每类视觉操作抽象为一个标准词汇表中的离散令牌,例如放大区域、绘制辅助线、添加箭头或文本标记等。这些令牌被称为功能令牌,它们在生成时就像普通单词一样集成在自回归序列中,无需额外监督图像,也无需外部工具或像素级解码。

功能令牌的设计与分类

ATLAS 只使用了五个功能令牌:<|Manip|>(图像增强/裁剪/缩放)、<|Shape|>(区域标记/高亮)、<|Line|>(几何构造线/分隔线)、<|Arrow|>(方向/流程提示)和 <|Text|>(符号标签/数值标注)。尽管数量极少,但这些令牌可以覆盖 40 多种视觉推理任务中的常见操作。分类依据是对操作类型的合理抽象,例如 <|Shape|> 可涵盖边界框、掩膜、裁剪、缩放等多种区域相关动作。

这种分类避免了对基础模型词汇分布的剧烈扰动,同时提供了清晰的解释性。整个文本序列可以自然地穿插功能令牌,例如模型生成“现在我添加一条辅助高度……”后紧接着产生 <|Line|>,这样功能令牌的调用就与上下文语义对齐,模型自身在交叉熵损失驱动下学会何时以及如何选择合适的视觉操作。

统一序列建模与训练流程

ATLAS 将所有推理都保持在离散的自回归序列内,给定多模态输入 x\mathbf{x},模型直接预测包含功能令牌的输出序列 y={y1,,yT}\mathbf{y} = \{y_1,\dots,y_T\}。当 yty_t 为功能令牌时,它既是普通序列令牌,又指示当前步骤所需的内部视觉操作。训练的损失函数与标准语言模型完全相同:

Lfunc=ytVfunclogpθ(ytx,y<t)\mathcal{L}_{func} = -\sum_{y_t \in \mathcal{V}_{func}} \log p_\theta(y_t \mid \mathbf{x}, y_{<t})

无需额外的图像级监督或潜层嵌入重构损失。这种简洁性使得 ATLAS 可直接复用现有的监督微调(SFT)和强化学习(RL)框架,无需任何架构或方法论修改。

训练分两阶段进行。第一阶段是 SFT,为此论文专门构建了 ATLAS-178K 数据集。该数据集从公开的 V-Interaction-400K 中提取操作并映射到功能令牌空间,再通过 Gemini-2.5-Pro 抛光轨迹,使推理文本自然流畅。同时混入 V-Perception-40K 以保持模型的底层感知能力。第二阶段采用基于 GRPO 的强化学习,为提高视觉推理的正确性和功能令牌的有效使用,定义了包含回答准确性、令牌使用条件奖励、格式服从奖励以及长度和令牌滥用惩罚的复合奖励函数。

潜在锚定 GRPO:解决梯度稀释

直接应用标准 GRPO 会遇到梯度稀释问题。在 ATLAS 的输出中,平均只有约 2.3%的令牌是功能令牌,序列级优势信号会淹没在大量普通文本令牌中,导致视觉操作关键令牌优化不充分,甚至出现令牌滥用等不稳定行为。为此,论文提出潜在锚定 GRPO(LA-GRPO)。它在保持原始序列级 GRPO 目标不变的基础上,针对每个功能令牌位置增加一个令牌级代理损失:

LLA-GRPO=LGRPO+α1MfunctMfuncLtoken(t)\mathcal{L}_{\mathrm{LA\text{-}GRPO}} = \mathcal{L}_{\mathrm{GRPO}} + \alpha \frac{1}{|M_{\mathrm{func}}|} \sum_{t \in M_{\mathrm{func}}} \mathcal{L}_{\mathrm{token}}^{(t)}

其中 MfuncM_{\mathrm{func}} 是功能令牌位置集合,Ltoken(t)\mathcal{L}_{\mathrm{token}}^{(t)} 使用裁切的重要性采样来直接传导组内优势。该附加项持久地强化功能令牌的梯度,稳定其调用行为,而无需改动训练流程。

创新点与贡献

ATLAS 的主要贡献可以概括为三点:

  1. 统一智能体与潜层推理:首次提出用离散词汇令牌同时承担智能体操作和潜层视觉推理单元,避免了冗长的代码生成和潜层嵌入的序列外循环,实现了真正端到端的自回归推理。

  2. 无附加训练约束:功能令牌完全融入标准 Tokens 词汇,不需要视觉监督,可无缝直接应用 SFT 和 RL(包括 GRPO),训练成本与标准 VLM 一致,极大提升了可扩展性。

  3. LA-GRPO 机制:发现并解决了功能令牌稀疏导致的梯度稀释问题,通过锚定机制显著增强了优化稳定性,为稀疏关键令牌的强化学习提供了一种简洁有效的方案。

实验与性能分析

在 V*、WeMath 和 BLINK 等具有挑战性的基准上,ATLAS 展现了强大的竞争力。基于 Qwen2.5-VL-7B 的 ATLAS 模型相比基线有显著提升。例如,在 BLINK 上,原始 Qwen2.5-VL 平均准确率仅 22.8%,而 ATLAS 经过 SFT 后达到 46.0%,RL(LA-GRPO 版本)进一步提升至 51.3%。在 WeMath 上也从 36.2%提高到 45.0%。与闭源巨模型 Gemini-2.5-Pro 相比,ATLAS 在多个子任务上差距不大,甚至在部分指标上相当。

消融实验表明,功能令牌的使用需要配合复合奖励中的负向惩罚,去除长度惩罚与令牌滥用惩罚会显著降低性能,证实了约束的重要性。效率分析显示,ATLAS 相比依赖外部代码的 V-Thinker,生成令牌总数缩减约 4.9 倍,延迟从 18.83 秒降至 3.80 秒,峰值内存占用也降低约 44%,同时准确率提升 15.7 个百分点。这表明单令牌表示视觉操作在效率上具有压倒性优势。

定性分析显示,功能令牌会自发关注任务相关的图像区域,如 <|Line|> 在几何题中注视辅助线部分,<|Shape|> 对准目标物体区域,表明了良好的可解释性。

实践应用建议与未来方向

ATLAS 的范式对于实际多模态应用有重要启示。在需要高效视觉推理的场景,例如文档理解、医学影像分析、自动化几何证明、交互式 AI 助手中,可以尝试将关键视觉操作抽象为有限的功能令牌,这样既能保持模型的端到端训练性,又能大幅降低推理延迟与计算开销。对于开发者而言,重点是定义一套精简且正交的视觉操作集,并构造对应的 SFT 数据使模型初步学会使用这些令牌,继而通过带约束的 RL 精调以平衡令牌调用与答案正确性。

未来方向包括:扩展功能令牌库以覆盖更多操作(如透视变换、3D 操作等),探索在更大规模预训练中注入功能令牌,以及在多模态推理链任务中结合长时规划与功能令牌的动态调用。另外,LA-GRPO 的思想也可推广到任意稀疏关键令牌(例如特定行动指令、决策点)的强化学习,具有更广泛的适用性。

总结

ATLAS 通过一个优雅的“一词两用”设计,将智能体的行动能力和潜层推理的紧凑性统一在标准自回归框架下。它证明了仅用五个离散令牌就可以显著提升视觉推理性能,同时在训练效率和推理速度上碾压外部工具调用方案。LA-GRPO 的引入进一步解决了稀疏令牌的优化难题。这项工作不仅为视觉推理开辟了新范式,也为未来多模态模型的设计提供了简单而强大的思路:有时,一个词就足够了。