保持好奇心：用于三维探索的片段上下文与持久世界

论文信息

标题: Remember to be Curious: Episodic Context and Persistent Worlds for 3D Exploration

作者: Lily Goli, Justin Kerr, Daniele Reda, et al.

发布日期: 2026-05-21

PDF 链接: 下载 PDF

研究背景与动机：当好奇心在复杂世界中 “迷失方向”

无论是人类幼儿在游乐场漫无目的地玩耍，还是小鼠在迷宫中自发探索，智能体都天然具有一种不依赖外部奖励的探索冲动。在人工智能中，这种 “好奇心驱动” 的学习范式被视为解决稀疏奖励长周期任务的关键——通过预测世界模型的误差来产生内在奖励，从而在缺少明确成功信号时依然能引导代理探索环境。然而，将这类方法扩展到复杂的照片级真实感 3D 环境（如室内场景导航）时，一个棘手的问题反复出现：代理会陷入毫无意义的重复行为，在走廊中不停转圈，或者对着同一堵墙反复 “感到新奇”。这篇论文《Remember to be Curious》直指问题的根源：缺乏空间持久性的世界模型和缺少情节上下文的决策架构，共同构成了一种 “遗忘症式” 的探索。

传统的好奇心驱动方法（例如 ICM）使用一个可学习的动态预测模型，代理因为预测不准而获得新奇奖励。但该模型只是对过往经验的一个统计先验，而不是对当前所在场景的持续记录。当代理返回一个已经探索过的位置时，由于模型没有对该位置的即时、持久记忆，它可能会再次产生巨大的预测误差，从而送入虚假的新奇奖励，驱使代理原地打转。与此同时，常用的循环神经网络（RNN）策略虽然能携带短期记忆，却难以可靠地回溯已探索区域，无法规划通往真正未知区域的长距离路径。因此，作者指出：真正有效的好奇心奖励必须建立在一个持续更新的、对环境空间具有持久记忆的世界模型之上，而代理本身也必须具备全局的情节上下文，才能识别出 “熟悉中的陌生分支”，并穿越已知区域到达新地带。

核心方法：持久世界模型与情节记忆代理的联姻

该工作将探索任务建模为一个纯好奇驱动的强化学习问题，系统由两大核心组件构成：一个基于在线 3D 重建的持久前向模型用于提供稳定奖励，以及一个基于 Transformer 序列模型的代理架构用于长期规划。

持久的前向模型：用 3D 高斯溅射 “记住” 所见

论文采用 3D 高斯溅射（3DGS）作为世界模型的载体。这是一种显式的几何表示，能将场景建模为大量带颜色的 3D 高斯椭球体，并可通过可微光栅化快速渲染新视角。在训练时，代理获得特权信息（RGB、深度和相机位姿），每观察到一帧，就根据深度和颜色初始化新的高斯体，并在线对过去随机采样的帧进行优化、剪枝和稠密化。这样构建出的 3DGS 模型 $\mathcal{G}_t$ 是一个对当前环境的持久、可增量更新的记录。当代理做出动作移动到新位置 $p_{t+1}$ 时，通过渲染该视角的预测图像 $\hat{I}_{t+1} = \mathcal{R}(\mathcal{G}_t, p_{t+1})$ ，并与真实观测 $I_{t+1}$ 比较即可得到预测误差。为滤除高频纹理噪声，误差先经过低通滤波和下采样再计算 L2 范数，并二值化为一个离散好奇奖励：

若误差超过阈值 $\tau$ ，给予正奖励 $r_\text{new}$ （视点足够新颖）；
否则给予微小负奖励 $r_\text{old}$ （视点已被模型解释）。

这种设计的精妙之处在于：随着 3DGS 模型不断整合新观察，它对已探索区域的渲染质量持续提升，预测误差自然下降，从而杜绝了 “遗忘状态” 带来的重复奖励。实验证实，当把 3DGS 的记忆窗口人为限制为仅 64 帧（即抛弃持久性）时，探索能力严重退化，代理会深陷局部区域。

情节记忆代理：让 Transformer 规划通往新奇之路

代理的决策网络使用一个仅依赖 RGB 流的 Transformer，它将探索过程视为一个序列建模问题。每一时间步，RGB 图像与上一个动作（编码为 Plücker 光线图）通道拼接，经 DINOv2 提取的视觉特征融合后，压缩为一个帧标记。这些帧标记首先通过带因果掩码的滑动窗口自注意力处理局部上下文，然后与一个全局线性注意力存储模块交替，该模块维持一个贯穿整个轨迹的隐藏状态 $h_i$ ，能够以线性复杂度汇总无限长的历史信息。这种混合结构既保证了短期动作连贯性，又赋予代理对遥远过去所见场景的回忆能力——这正是规划回溯行为、发现探索死角的认知基础。

最终，当前帧的嵌入输出给 Actor-Critic 头部，产生动作概率和状态值估计。整个策略完全基于观测历史 $o_{1:t}$ 和动作历史 $a_{1:t-1}$ ，而未使用任何显式几何地图或深度传感器，因此能保留丰富的语义信息，为后续任务迁移提供了天然灵活性。

探索策略的 “助推器”：随机动作注入与退火

好奇心驱动训练的另一难题是：当局部区域都被探索后，前往全新区域可能需要穿越毫无奖励的已知区域，这容易导致策略退化。除了常规的熵正则化，论文引入了受 SAPG 启发的技巧：在训练早期，以一定概率 $\beta$ 从均匀随机策略采样动作，从而保证探索的持续性。随后 $\beta$ 被逐渐退火至零，让智能体回归纯粹由学习策略行动。这种机制促使代理学会了 “快速通过已知走廊，寻找未见过道口” 的涌现行为，而无需依赖示范数据或分层目标设定。

实验分析：从定量比较到零样本泛化

实验在 Habitat 仿真平台上进行，训练集为 HM3D 的 800 个室内场景，测试集包括 HM3D 验证集、Gibson 数据集以及由 World Labs 生成的完全不同的 AI 世界。评价指标采用 3D 场景完备度（采样网格点中被观察到距离 5cm 以内的比例）和平均未观测距离。

与两类 RL 基线（Active Neural SLAM、Occupancy Anticipation）相比，本文仅使用 RGB 输入（对手需深度或 RGB-D）就取得了更高的覆盖率和更低的平均距离。定性观察显示，基线方法常因地图错误被困或过度覆盖局部，而本代理展现出穿走廊、辨路口、主动返回交叉点等高效探索行为。

消融实验成为论文最有力的论据。当用传统 ICM 替代持久 3DGS 时，代理彻底崩溃，不停原地旋转。换成仅保留 64 帧记忆的 “短视”3DGS，探索范围大幅缩减。在代理侧，用容量匹配的 RNN 或极短上下文窗口的 Transformer 均表现不佳；有趣的是，即使只让评论家保留长上下文而演员使用单帧，性能也显著超过双方都丧失记忆的配置，可见情境信息对于值估计的准确性同样至关重要。

在下游任务微调实验中，代表无需任何结构改动即能切换至 “苹果采摘” 和 “图像目标导航” 等具体任务。只需少量微调轮次，其成功率就远超从零开始训练的基线，尤其在奖励更稀疏的设置下优势更为明显。这一结果确证了好奇心预训练获得的通用探索能力可以高效转化为面向目标的技能。

创新点与贡献：重新定义好奇心的必要条件

文章的核心贡献并非提出一种新的特定算法，而是澄清了一个关键设计原则：好奇心需要空间持久性与情节记忆。具体而言：

持久世界模型的明确定义与验证：通过将 3DGS 作为精确可控的代理前向模型，首次系统性展示了持久性（而非仅仅在线更新）对避免虚假新颖奖励的不可或缺性，为后续动态世界模型的研究指明了方向——“不能遗忘空间” 是基本要求。
无地图的长期探索策略：以往基于好奇心的导航多依赖显式几何地图，丢弃了语义；这里的 Transformer 序列代理以端到端方式从像素历史中习得内部地图，既保持了语义丰富性，又支持灵活迁移。
纯粹好奇驱动涌现探索行为：在没有外部任务奖励、没有示教数据、不进行分层目标选择的情况下，仅凭内在奖励和简单随机扰动，策略学会了回溯等复杂探索模式，充分释放了好奇心在复杂环境中的潜能。

实践应用建议与未来展望

在实践层面，这项工作为研发自主探索机器人、特别是仅依赖单目相机的低成本平台提供了重要参考。如果你正在开发服务机器人或仓储盘点系统，以下几点值得借鉴：

尝试将在线场景重建作为好奇奖励的来源：即使不采用 3DGS，任何具备持久空间记忆的系统（如轻量级神经隐式表面）都可以充当 “前向模型”，滤除已熟悉的视点奖励。
赋予策略长期记忆能力：在 Transformer 中引入高效的线性注意力或状态空间模型，能显著提升机器人在大规模室内作业时避免重复路径、系统化覆盖空间的能力。
利用好奇预训练加速下游任务：在目标明确的自主任务（如寻物、巡检）中，先以无监督探索策略训练智能体，再用少量任务奖励微调，可大幅降低对稠密奖励设计或大量示教的需求。

未来发展方向上，本文最大的局限在于假设场景为静态，因此依赖 3DGS 等静态重建工具。随着动作条件视频生成模型（如 Genie、DreamZero）逐步克服空间遗忘和开环漂移问题，我们可以将持久性要求注入这类动态世界模型，届时对动态场景（如含移动障碍物或人的环境）的好奇心探索将变得可行。此外，将此类 “记得要好奇” 的框架扩展至真实机器人，需要解决传感器噪声和即时定位与建图的误差，一个可行路径是将不确定性信息融入到世界模型的新奇度评估中。最终，好奇心将不再是参数敏感、容易迷失的玻璃神器，而成为让具身智能在开放世界自治的可靠引擎。

总结

《Remember to be Curious》通过精巧的实验设计揭示了探索性 AI 的两个被长期忽视的基石：一个不会遗忘空间的世界模型，和一个能回顾全历程的决策代理。这种组合从根源上消除了虚假的自产奖励，使得在复杂 3D 室内环境中纯粹由好奇心驱动的探索首次达到与几何地图方法相媲美甚至超越的性能，同时保持了端到端和语义灵活的优势。当我们将目光从干净的仿真转向喧嚣的真实世界时，这项研究留下的启示或许比其具体的系统更重要：智能体需要的不仅仅是自由，更是记住来路的能力。