VideoMLA：面向分钟级自回归视频扩散的低秩潜在键值缓存

论文信息

标题: VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

作者: Hidir Yesiltepe, Jiazhen Hu, Tuna Han Salih Meral, et al.

发布日期: 2026-05-28

PDF 链接: 下载 PDF

视频扩散模型的 “内存瘦身” 革命：VideoMLA 如何用低秩潜在缓存实现分钟级生成

一、为什么需要压缩 KV 缓存？

近年来，因果视频扩散模型已成为生成长时间视频的主流方案。它们以自回归方式逐块生成视频帧，并依赖一个滚动更新的键值（KV）缓存来存储历史帧的注意力状态，从而避免重复计算。然而，随着模型规模的扩大和生成时长的延伸，KV 缓存的内存开销迅速成为瓶颈。

以 Wan-1.3B 为例，其标准的多头注意力（MHA）在每一层为每个 Token 存储 $2 \times 12 \times 128 = 3072$ 个密集标量（对应 12 个头、128 维的键和值）。当缓存 21 个潜在帧，每帧 1560 个 Token，且模型有 30 层时，KV 缓存总大小高达 3.02B 标量，约合 6.0 GB（bf16）。这迫使现有系统采用固定大小的滑动窗口来限制缓存长度，但它们并未触及问题根源：每个 Token、每一层的 KV 存储布局本身过于臃肿。

VideoMLA 正是瞄准了这一被忽视的方向。它没有改动窗口内 Token 的选取策略或位置编码方式，而是直接对 KV 缓存内部的表示结构 “动手术”，将多头注意力的密集键值张量替换为共享的低秩内容潜在向量和去耦的 3D 旋转位置编码（RoPE）键。这一改变使得每个 Token 的缓存尺寸骤降至 224 个标量，相比原始密集布局减少了 92.7%，为长时域视频生成打开了全新的效率空间。

二、VideoMLA 的核心方法

VideoMLA 建立在 DeepSeek-V2 提出的多头潜在注意力（MLA）基础上，但将其首次引入视频扩散领域。其主要技术构成包括三个部分：

1. 共享低秩内容潜在缓存

对于来自主干的每个视频 Token $x_t \in \mathbb{R}^d$ ，VideoMLA 首先通过一个联合下投影矩阵 $W_{\downarrow}^{KV} \in \mathbb{R}^{d_c \times d}$ 将其压缩为一个紧凑的内容潜在向量 $c_t^{KV} \in \mathbb{R}^{d_c}$ ，其中 $d_c \ll d$ （如 $d_c = 192$ ）。该向量取代了过去需要为每个头独立存储的键和值，成为缓存的核心内容。在需要计算注意力时，通过两个上投影矩阵 $W_{\uparrow}^K$ 和 $W_{\uparrow}^V$ 将 $c_t^{KV}$ 映射回逐头的内容键 $k_{t,h}^{\text{nope}}$ 和值 $v_{t,h}$ 。这一 “压缩-解压” 结构让多个头共享同一个内容缓存，避免了冗余存储。

2. 去耦的 3D 旋转位置编码键

为了避免将位置信息混入可能被滑动窗口重排的共享内容缓存，VideoMLA 将位置编码分离出来。每个头被拆分为无位置编码（NoPE）的内容子空间（ $d_h^{\text{nope}}$ ）和带 RoPE 的位置子空间（ $d_h^{\text{rope}}$ ）。模型只存储一个头共享的未旋转位置键 $k_t^R \in \mathbb{R}^{d_h^{\text{rope}}}$ ，在组装注意力窗口时才应用 3D-RoPE。这样，每个 Token 的缓存尺寸进一步固定为 $d_c + d_h^{\text{rope}}$ （默认 $192+32=224$ ），且缓存内容与绝对时间步解耦，便于无限长度生成时的窗口重索引。

3. 训练与推理统一的重参数化

训练时，VideoMLA 显式地从 $c_t^{KV}$ 重建出逐头的键和值，以便复用已有的分块因果掩码和注意力核。但在推理时，这种重建会丧失压缩效果。为此，作者引入了一种等效重参数化技巧：将上投影矩阵与注意力计算融合，直接在潜在空间中计算内容得分和输出投影。例如，无位置编码的内容得分可通过预计算矩阵 $A_h = (W_{\uparrow,h}^Q)^\top W_{\uparrow,h}^K$ 直接由查询潜在向量 $c_i^Q$ 和缓存潜在向量 $c_j^{KV}$ 计算： $q_{i,h}^{\text{nope}} \cdot k_{j,h}^{\text{nope}} = (c_i^Q)^\top A_h c_j^{KV}$ 。输出投影也可同理与值上投影合并。这使得推理时缓存始终保持在 $d_c + d_h^{\text{rope}}$ 的紧凑状态，真正实现了理论上的内存缩减。

三、从 “光谱错觉” 到 “秩预算” 的认知突破

在许多语言模型中，MLA 的有效性通常被归因于预训练注意力权重 $W_K, W_V$ 具备天然的低秩特性——即可以用一个小得多的秩来近似，而信息损失很小。然而，VideoMLA 的分析揭示了一个反直觉的事实：在 Wan-1.3B 视频扩散模型中，注意力的联合算子 $[W_K; W_V]$ 根本不低秩。当 $d_c=192$ 时，中位数层的保留能量仅 45.8%，且 99% 能量的有效秩在所有层都超过 1300，远高于任何实用的潜在维度。按传统光谱近似的逻辑，在如此低的秩下重构会导致巨大的重建误差。

那么，VideoMLA 为什么还是能成功？作者通过一系列光谱实验找到了答案：决定有效秩的不是预训练权重的光谱结构，而是 MLA 架构本身强加的瓶颈。无论是从 SVD 初始化还是随机初始化开始，复合算子 $M = [W_{\uparrow}^K W_{\downarrow}^{KV}; W_{\uparrow}^V W_{\downarrow}^{KV}]$ 的秩都会从一开始就几乎占满 $d_c$ 的预算，并且在训练过程中稳定保持。也就是说，模型学会的是在这个给定的秩预算内适应和重新分配表示能力，而不是去恢复某种预训练中固有的低秩结构。这一发现将设计问题从 “寻找内在低秩” 转变为 “为任务选择合适的秩预算”，拓宽了 MLA 在非语言模型中的应用思路。

四、实验结果：长时域性能与效率的双重提升

VideoMLA 在 Wan2.1-T2V-1.3B 上进行了全面的长视频生成评测。定性结果（图 4、图 5）显示，即便使用紧凑的潜在缓存，VideoMLA 在 30 秒到 60 秒的生成过程中依然能保持场景结构、主体一致性和视觉保真度。定量来看，在 VBench 的长期评估中，VideoMLA 在 30 秒和 60 秒均取得了最高的动态程度（Dynamic Degree），表明压缩并未导致视频静态化。其 60 秒综合得分达到 0.859，优于 Reward Forcing、Infinity-RoPE、LongSANA 等代表性方法。同时，在吞吐率和延迟测试中，VideoMLA 在单张 B200 上实现了最高 23.96 FPS 的生成速度，相比 Self-Forcing 基线提升约 1.23 倍，并大幅领先于 LongSANA 等架构重设计方法。

值得关注的是，VideoMLA 的压缩增益直接转化为服务端的批处理扩展能力。在固定显存预算下，密集 MHA 在 batch size 达到 28 时即显存不足（OOM），而默认配置的 MLA 可支撑至 224 的 batch size，扩展了 8 倍。更激进的压缩配置（ $d_c=64$ ）甚至能支持 320 的 batch size，但会有轻微的质量下降，形成质量-效率的平滑可调频谱。

消融实验进一步显示， $d_c=192$ 是一个较好的平衡点；NoPE/RoPE 通道分配上，内容路径应占据主导（96/32），这样可保留足够的语义容量，同时用较小的 RoPE 子空间维持时空结构。

五、实践建议与未来方向

对于从事长时域视频生成研究和部署的团队，VideoMLA 提供了几个可直接落地的策略：

优先压缩 KV 布局而非窗口策略：多数现有方法在窗口管理上内卷（如何选 Token、如何编码位置），而 VideoMLA 证明从每个 Token 的内部表示入手，能带来更显著的全局内存收益，且与窗口策略正交，可以叠加使用。
采纳秩预算思维：不必受限于预训练模型光谱是否低秩。只要架构保证了低秩瓶颈，模型有能力在训练中适应。因此，在设计推断优化时，可直接以目标压缩比设定潜在维度，然后通过轻量微调（如文中使用的三阶段蒸馏流程）让模型适应，这比事后 PCA 近似更为鲁棒。
在推理中实施重参数化：缓存紧凑是一回事，真正获得速度提升还需避免隐式重建密集键值。将上投影与注意力计算融合，能大幅减少内存搬运和计算开销，是实现吞吐率提升的关键工程细节。

未来，VideoMLA 的范式可以扩展到更大规模的视频模型（如 Wan 的更大版本）、更高分辨率、甚至结合提示切换等交互功能。将低秩潜在缓存与线性注意力或状态空间模型结合，可能会诞生出记忆更恒定、长度近乎无限的视频生成系统。此外，探索动态可调节的秩预算，根据内容复杂度自适应分配缓存容量，也是一个极具潜力的方向。

六、总结

VideoMLA 通过将多头潜在注意力引入视频扩散模型，成功挑战了 “密集 KV 缓存不可动摇” 的惯性认知。它不仅将每 Token 缓存内存削减了 92.7%，在长时域生成任务上保持甚至提升了质量，而且揭示了注意力层内有效秩决定因素从数据光谱向架构瓶颈转移的深层机制。这项技术为在有限硬件上实现分钟级、甚至更长时域的高质量视频生成铺平了道路，是面向实时、流畅的流式视频创作体验的重要一步。