MemDreamer：通过分层图记忆与代理检索机制解耦感知与推理，实现长视频理解

论文信息

标题: MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism

作者: Cong Chen, Guo Gan, Kaixiang Ji, et al.

发布日期: 2026-06-05

arXiv ID: 2606.07512v1

PDF 链接: 下载 PDF

论文背景与研究动机

长视频理解是将视觉语言模型推向具身智能与开放世界交互的核心能力。尽管单帧或多帧以及短视频分析取得了长足进步，但当面对时长数小时的视频时，现有的视觉语言模型仍面临严峻挑战。根本原因在于长视频极强的时序冗余和结构复杂，将关键的推理信号淹没在海量噪声中。当前主流范式采用紧耦合策略，依靠超长上下文窗口让模型同时处理视觉感知与逻辑推理。这种方案将长视频通过暴力抽帧压缩成庞大的 Token 流，引发两个瓶颈：感知层面的 Token 爆炸——以每秒 1 帧采样一段两小时视频会生成超过 160 万个 Token，远远超出常见上下文上限；推理层面的注意力稀释和 “中间丢失” 现象，严重损害长程推理能力。因此，亟需一种新范式来突破这些瓶颈。

MEMDREAMER 正是为了化解上述困境而提出。它的核心思想是解耦感知与推理，将长视频理解转化为分阶段的智能体探索过程：先用感知模型以流式方式逐步构建一个持久记忆库，再用独立的推理模型在该记忆库中执行检索，获取任务相关线索。这种机制可以绕开上下文长度限制和 Token 冗余，但其有效性高度依赖记忆的结构化组织。传统的扁平化或基于块存储的方案模糊了全局视角，割裂了时序-因果链路，使检索退化为近视的穷举搜索。MEMDREAMER 通过引入分层图记忆和工具增强的智能体检索，从根本上解决了这一问题。

核心方法：分层图记忆与智能体检索

MEMDREAMER 将长视频建模为一个由视频根节点、超级事件和宏事件构成的三层语义层次结构，并在底层的宏事件层构建局部子图，表达实体、微事件及其时空与因果依赖。整个系统由记忆构建与智能体检索两个阶段组成。

记忆构建阶段首先采用流式自适应分割机制。系统维护一个最大时长 $\tau$ 的滑动时间窗口，感知模型在窗口内执行时序定位，解析出一组语义完整的宏事件，并以最后一个事件的结束边界作为下一窗口的起点。这种自适应分割确保每个宏事件内部连贯，避免固定长度切分导致的情节断裂，同时将感知模型的单次输入限定在 $\tau$ 以内，控制了上下文压力。随后进行向下的子图提取，为每个宏事件生成一个局部时空子图，其节点集合同时包含实体和微事件，边集合则包括空间-属性边（实体之间）、主客体边（实体与微事件之间）以及时序-因果边（微事件之间）。这一设计突破了传统三元组在动态长视频建模上的局限。最后，通过自底向上的层级聚合，将相邻且语义相关的宏事件进一步聚类为超级事件，最终汇聚为一个视频根节点，形成从微观动作到整体叙事的粗糙到精细的拓扑结构。

智能体检索阶段则充分发挥该三层图记忆的优势。系统为推理模型配备了一个涵盖三大功能维度的工具库：层级导航工具支持从全局到底层的纵向探索（如获取视频摘要、超级事件列表、宏事件以及子图详情）；精准搜索工具支持基于向量嵌入的语义检索和时间范围过滤，快速定位相关节点；图遍历工具则能沿空间、时序或因果边进行多跳追踪，解析跨时空的逻辑链。推理模型以 “观察-推理-行动” 循环运行：每轮根据用户查询和历史轨迹决定一个工具调用，获得原始观察后，模型并不直接拼接所有结果，而是通过压缩提取只保留与任务相关的证据线索，以此避免累积噪声导致长上下文失效。最终，模型利用收集的线索生成最终答案。整个检索过程的上下文窗口稳定保持在 5k–6k Tokens 量级，仅为端到端原生推理输入的约 2%-3%。

创新点与核心贡献

本文的主要创新可归纳为三点：

感知与推理的解耦范式：MEMDREAMER 彻底分离了视频感知与逻辑推理，通过持久化文本记忆和智能体检索，摆脱了对超长上下文窗口的依赖。这种范式不仅突破了 Token 爆炸与注意力稀释的瓶颈，还首次揭示出模型的长视频理解性能与其内在的智能体推理能力之间存在强正相关性（皮尔逊相关系数从端到端范式下的 0.70 跃升至 0.90，且统计显著），为日后通过增强智能体能力来提升多模态理解提供了新的优化方向。
分层图记忆设计：不同于以往的扁平存储或仅做层次化分块的工作，MEMDREAMER 构建垂直三层抽象，并在底层层引入包含时空和因果边的局部子图，同时保留跨层连接。这种拓扑结构既抑制了无关细节，又保留了长程依赖，有效支撑了后续的检索与推理，其增益在消融实验中被充分验证。
工具增强的智能体检索：将长视频理解重塑为多步主动探索任务，通过层级导航、语义搜索和图遍历三类工具的组合，推理模型得以在记忆空间中灵活切换视角，从宏观叙事到微观因果链逐步锁定证据。这种方案显著优于传统的单轮嵌入匹配或全上下文注入。

实验结果与分析

MEMDREAMER 在四个主流长视频理解基准（LVBench、LongVideoBench、Video-MME、EgoSchema）上均取得了最优结果。以最难的 LVBench 为例，搭配 Gemini-3.1-Pro 推理引擎时达到 90.7% 准确率，相比同一骨干网络的端到端版本提升 12.5 个百分点，与人类专家 94.4% 的差距缩小到仅 3.7 个百分点。在需要细粒度推理的 EgoSchema 上，MEMDREAMER 也达到 88.2%，验证了方法在自我中心视角下的鲁棒性。更重要的是，这一性能是使用极低的上下文开销实现的：（平均活跃上下文约 6k Token，相较端到端输入的 240k–784k Token 减少了 40–124 倍）。

在消融分析中，研究者逐步拆解记忆架构和检索策略的贡献。仅做扁平分块时 LVBench 得分为 77.4；引入图拓扑边（但无层次）提升至 84.8；加入层次化抽象（但无边）增强到 86.3；完整的分层图记忆则达到 90.7，证明层次骨架与密集图边在全局导航与局部定位上的互补效应。检索策略方面，常规嵌入相似性检索仅得 70.5；直接注入完整图结构虽在概括性问题上表现尚可，但推理问题大幅跌落至 72.7，表明未过滤的拓扑信息引会引入严重噪声；仅用搜索工具得到 80.2；启用全部工具（添加图遍历与层级导航）后突破 90，彰显多维度工具集的关键作用。另外，实验还表明，该框架对感知模型的选型具有较高鲁棒性：更换底层感知模型引起的性能波动不超过 1.4 个百分点。

实践应用建议与未来发展方向

基于 MEMDREAMER 的设计哲学，在类似长视频理解或大规模多模态任务中，实践者可以参考以下策略：首先，将视频处理与推理显式分离，用专门且成本可控的感知模型构建结构化的文本记忆，从而免除推理时重复访问原始视频的需求。其次，在记忆构建中引入层次化抽象和关系图，把情节归纳为时间分层的叙事单元，并显式编码实体间的空间、时序和因果边，这种设计不仅有利于证据定位，还为后续的因果推理提供了硬支撑。再次，利用工具增强的智能体循环替代一次性上下文填充，能够显著缓解推理模型的上下文压力，并让系统随着模型推理能力的提升而自然增益。

未来，这一范式有多个可拓展方向：一是在线视频流的实时记忆更新与动态图演化，这需要高效的增量构图算法；二是将视觉编码信息（如关键帧特征）适当融入文本记忆，以应对细粒度视觉问答；三是将智能体检索与外部知识库或工具（如计算、地图查询）打通，扩展至更开放的现实世界任务。最后，文中揭示的智能体能力与多模态理解的强相关性，暗示了一条新的规模化路径——通过强化模型的逻辑推理与工具使用能力来间接提升长程多模态理解性能，值得进一步探索。

总结与展望

MEMDREAMer 通过解耦感知与推理，结合分层图记忆和工具增强的智能体检索，为长视频理解建立了新的技术范式。其不仅取得了多项基准上的最高水平，大幅缩小了与人类表现的差距，而且在保持高准确率的同时将推理上下文窗口压缩了数十倍。更重要的是，它用实验揭示了解耦范式下模型逻辑推理能力直接转化为长视频理解能力的规律，为未来多模态理解系统的设计提供了新的思路——从单纯扩大上下文窗口转向增强智能体探索和推理能力。这一成果有望推动视频分析走向更复杂、更开放的智能应用。