RefDecoder：通过条件视频解码增强视觉生成

论文信息

标题: RefDecoder: Enhancing Visual Generation with Conditional Video Decoding

作者: Xiang Fan, Yuheng Wang, Bohan Fang, et al.

发布日期: 2026-05-14

PDF 链接: 下载 PDF

论文背景与研究动机

视频生成技术正处于快速发展期，潜在扩散模型已成为事实上的行业标准。这类模型通常包含两个关键组件：一个是负责去除噪声并生成潜在表示的扩散骨干网络，另一个是将潜在表示解码回像素空间的 VAE 解码器。然而，当前主流方法存在一个被忽视的"架构不对称性"问题：扩散骨干网络通常接受丰富的条件信号指导（如文本描述、参考图像），而 VAE 解码器却始终保持无条件状态。

这种不对称性并非无关紧要。即使扩散模型在潜在空间中忠实地保留了参考信息，解码器也必须仅凭高度压缩的潜在表示来重建精细的空间细节，缺少准确的视觉锚点。这导致了两类典型失败模式：(1) 空间细节渐进退化，纹理、边缘和高频内容在偏离条件图像的帧中明显恶化；(2) 时序不一致性，外观特征在视频序列中逐渐漂移。

研究团队的关键洞察在于：解码器的隐藏空间远比 VAE 潜在空间丰富。若能将参考图像编码到这个高保真度空间中，并作为额外的自注意力令牌注入解码过程，解码器就能利用潜在代码本身无法提供的细节信息。基于这一思想，论文提出了 RefDecoder——一种参考条件化的视频 VAE 解码器。

核心方法设计

RefDecoder 的架构包含三个关键组成部分，它们协同工作以解决条件信号注入的技术挑战。

参考图像编码机制采用极简设计。与典型方法将参考图像编码到低维特征空间不同，RefDecoder 通过单层卷积加归一化操作，将原始图像块直接投影到高维特征空间（512 维）。轻量化的编码器设计避免了深层网络可能导致的细节平滑问题，确保了高频信息的有效保留。编码后获得的参考令牌 $\mathbf{z}_{\text{ref}}$ 在通道维度上与解码器首阶段特征图对齐，为后续的注意力交互奠定了基础。

条件令牌解码是 RefDecoder 的技术核心。在每个上采样阶段，视频潜在令牌 $\mathbf{z}^{(s)}$ 与参考令牌 $\mathbf{z}_{\text{ref}}^{(s)}$ 沿时间轴拼接，形成形态为 $\mathbb{R}^{C_s \times (1+T_s) \times H_s \times W_s}$ 的张量。拼接后的令牌通过共享的 Transformer 块进行联合自注意力处理，使每个视频令牌能够选择性查询参考令牌并提取相关信息。处理完成后，输出被拆分回参考令牌和视频令牌，分别通过预训练的上采样模块。这种设计实现了三个目标：实现联合处理、保持与原有 VAE 上采样路径的兼容性、最小化参数开销。

潜在令牌丢弃策略是训练过程中的关键创新。在每个训练步骤中，视频潜在令牌的每个时空位置以概率 $r$ 被独立置零， $r$ 从 $[0, r_{\text{max}})$ 的均匀分布中采样（默认 $r_{\text{max}} = 0.7$ ）。这一设计强制模型通过注意力机制从参考令牌中恢复缺失细节，有效防止解码器过度依赖视频潜在表示而忽视参考信号。

训练过程采用双阶段课程学习策略：首先在短片段上训练（Wan 2.1 使用 5 帧，VideoVAE+使用 4 帧），然后扩展到最大帧数。损失函数结合 L1 距离和 LPIPS 感知损失：

\mathcal{L} = \|\mathbf{x} - \hat{\mathbf{x}}\|_1 + \mathcal{L}_{\text{LPIPS}}(\mathbf{x}, \hat{\mathbf{x}})

训练期间随机选择参考帧位置而非固定使用首帧，增强了模型对不同时序关系的鲁棒性。

创新点与技术贡献

RefDecoder 的工作代表了条件生成范式的重要补充。其核心创新可归纳为三个层面：

第一，架构角色的重新定义。传统观点将 VAE 解码器视为被动的重建模块，RefDecoder 论证了解码器应作为主动参与者充分利用条件信号。这一理念转变对视频生成系统的设计具有深远影响。

第二，通用化的即插即用设计。RefDecoder 仅修改解码器部分，编码器和扩散骨干网络保持冻结，可作为现有视频 VAE 解码器的直接替换方案。这种架构无关性使其能够无缝集成到 Wan 2.1 和 VideoVAE+等不同骨干网络中，无需对扩散模型进行昂贵的重新训练。

第三，多维度的性能提升。在 Inter4K 重建基准上，RefDecoder 相比无条件基线实现了超过 1dB 的 PSNR 提升；在 VBench I2V 基准上，主体一致性、背景一致性和整体质量评分均得到改善。更值得注意的是，该方法展现出良好的任务泛化能力，可自然扩展到风格迁移和视频编辑优化等场景。

实验结果深度分析

实验设计体现了严谨的消融研究思路。在 Transformer 块数量的消融实验中，从 3 块到 10 块，重建质量随深度持续提升，10 块模型在 Inter4K 上达到 34.9dB PSNR，验证了更深层次注意力交互的价值。

潜在令牌丢弃的消融揭示了关键机制：丢弃率从 0.0 提升到 0.7 时，整体 PSNR 提升 2.71dB，参考帧 PSNR 提升 3.85dB。参考帧增益大于整体增益这一现象表明，丢弃策略确实促使解码器学会在需要时调用参考信息，而非仅仅产生退化内容。

双阶段课程学习的必要性也得到证实：在固定丢弃率 0.7 条件下，双阶段训练相比单阶段训练整体 PSNR 提升 3.80dB，参考帧 PSNR 提升 4.64dB。参考帧指标的更大幅度改善说明第二阶段训练主要优化了参考令牌到长时序上下文的解码过程。

在视频编辑应用中，RefDecoder 将非编辑区域的 PSNR 从 30.2 提升至 31.6dB，SSIM 从 90.7% 提升至 92.6%，LPIPS 从 0.0477 降至 0.0297。这些指标说明参考条件化有效缓解了编辑保真度与可编辑性之间的权衡。

实践应用建议

对于从事视频生成系统开发的团队，RefDecoder 提供了三个层次的实践启示：

系统集成层面，考虑到 RefDecoder 仅需替换解码器而无需重新训练扩散模型，建议在现有管线中优先尝试集成。参数开销极小（推理延迟从 72,037ms 增至 74,584ms），但质量提升显著且稳定。

训练策略层面，潜在令牌丢弃和双阶段课程学习是 RefDecoder 有效性的关键支撑。在实际部署时，应保留这些训练技巧而非仅采用架构修改。特别地，随机参考帧选择策略对模型鲁棒性至关重要——固定使用首帧训练会导致模型在其他参考条件下的严重退化。

任务扩展层面，RefDecoder 的风格迁移和视频编辑应用展示了条件解码范式的任务无关性。开发者可探索将该机制扩展到需要参考条件的其他视觉生成任务，如多视角生成、视频插帧等。

未来发展方向

论文提出的几个局限指明了后续研究方向。首先是多参考扩展，当前设计仅支持单一参考图像，扩展到多个参考源（如用于插值或多视角任务）是自然延伸。其次是参考编码器的丰富化，探索超越单层卷积的更复杂编码结构以捕获更丰富的语义信息。自动化超参数选择以适应不同架构特征也值得探索。此外，当视频长度扩展导致参考帧在时间上变远时，当前方法可能面临性能衰减，需要研究时间自适应机制。

总结与展望

RefDecoder 通过引入参考条件化解码机制，系统性地弥补了视频生成中的架构不对称性。其核心思想——解码器不应保持无条件状态，而应主动利用条件信号——看似简单，却触及了当前视频扩散模型的一个基础性设计缺陷。通过在解码器的隐藏空间中注入高保真参考信息，该方法在不改变扩散模型的前提下实现了稳定的质量提升。

从更广阔视角看，这项工作提示我们重新审视条件生成管线中各组件的最优分工。当条件信号已经可用时，管线中的每个可学习模块都应获得利用这些信号的机会。这一理念可能推动未来视频生成架构向更均衡、更高效的方向演进。