Lumos-Nexus:通过同质潜在空间实现视频统一模型的高效频率桥接

arXiv: 2605.31603v1

论文信息

标题: Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models

作者: Jiazheng Xing, Hangjie Yuan, Lingling Cai, et al.

发布日期: 2026-05-29

arXiv ID: 2605.31603v1

PDF 链接: 下载 PDF

引言:视频生成模型的痛点与机遇

视频生成领域近年来取得了长足进步,扩散模型和自回归模型均能生成相当逼真的动态画面。然而,面对复杂的指令,如“骑自行车时所见景物的相对运动”或“石落水中的涟漪传播”,单纯的文本条件往往难以确保生成内容符合物理规律与逻辑意图。视频统一模型(video unified models)应运而生,它们在一个框架内融合多模态理解和视觉生成,让理解模块向生成器注入结构化的语义先验,从而使生成结果具备更强的推理一致性。

在架构层面,视频统一模型主要分为联合注意力(joint-attention)和连接器式(connector-based)两类。连接器式模型通过一个显式的连接器将对齐后的语义表示注入生成器,避免了两大模块的联合优化,理论上训练成本更低。但实际应用中,当生成器规模庞大(例如 Wan2.1-14B)时,即便只微调连接器与生成器之间的对齐,计算开销仍然令人望而却步。如何在不牺牲生成质量的前提下,高效地利用大型预训练生成器的能力,成为亟待解决的核心矛盾。

论文 Lumos-Nexus 正是针对这一矛盾,提出了一种训练高效、推理高质的统一视频生成框架。其核心思想是:训练时仅对齐一个轻量生成器以学习推理语义,推理时借助共享的潜在空间,通过渐进频率桥接无缝衔接至大生成器,实现高保真与强推理的兼得

核心方法:统一渐进频率桥接

Lumos-Nexus 采用了两阶段设计。

训练阶段:只让一个轻量级的扩散生成器(小生成器 GS\mathcal{G}^{\mathcal{S}})与理解模块对齐。这个生成器负责学习如何将 VLM(视觉语言模型)提取的推理驱动的语义编码转化为可视的结构化先验。由于模型规模较小,训练成本可控。

推理阶段:引入统一渐进频率桥接(Unified Progressive Frequency Bridging,UPFB)。此时,一个小生成器负责提供语义骨架,一个预训练好的大容量生成器(GL\mathcal{G}^{\mathcal{L}})负责补充高频细节。两个生成器共享相同的潜在空间(例如同属 Wan 家族的 1.3B 和 14B 模型),这是桥接的基础。

UPFB 包含了四个精巧的组件,确保桥接过程平滑且稳定。

  1. 时域语义门控(Temporal Semantic Gating):设计了一个单调递减的混合权重 wtw_t,它用余弦函数控制交接的锐度,使得在生成早期,小生成器的输出占主导,奠定布局和语义;随着去噪步数增加,大生成器的贡献逐渐增强,负责细节精炼。

  2. 时变频率分解(Time-Varying Frequency Decomposition):针对两个生成器可能存在的频率偏差,采用一个带宽随时间衰减的高斯低通滤波器 GσtG_{\sigma_t},将预测的速度场分为低频成分 LF(v)LF(\mathbf{v})(全局结构、语义)和高频成分 HF(v)HF(\mathbf{v})(纹理、边缘)。σt\sigma_t 从较大的 σmax\sigma_{\max} 逐渐减小到 σmin\sigma_{\min},自然地实现了粗到细的过渡。

  3. 双频桥接与不对称融合:由于大生成器擅长高频纹理,小生成器擅长语义,作者对不同频率分量进行不对称融合: LFt=wtLFtS+(1wt)LFtLLF_t = w_t\,LF_t^{\mathcal{S}} + (1-w_t)\,LF_t^{\mathcal{L}} HFt=γhfwtHFtS+(1wt)HFtLHF_t = \gamma_{hf}\,w_t\,HF_t^{\mathcal{S}} + (1-w_t)\,HF_t^{\mathcal{L}} 其中 γhf[0.5,0.8]\gamma_{hf}\in[0.5,0.8] 用于抑制小生成器不够可靠的高频信息,确保纹理的干净利落。

  4. RMS 对齐与能量重平衡:为了避免两个生成器速度场幅度不匹配造成的曝光过度或数值不稳定,UPFB 在融合前后分别进行 RMS 归一化。先将大生成器的速度场缩放至与小生成器能量一致,融合后再将整体收缩到两者的平均能量水平,保证去噪轨迹始终稳定。

通过这四个模块,UPFB 完全不需要对大生成器进行任何训练,即可让大模型完美继承小模型在训练中获得的推理能力,同时充分释放其高保真生成潜力。

VR-Bench:推理驱动的视频生成基准

为了定量评估视频模型是否真正“理解”并生成符合物理、常识与意图的视频,论文同时构建了 VR-Bench。该基准包含 8 个维度,分为三大类:

  • 高阶物理世界推理:动态参考系(DRF)、能量传递可视化(ETV)、材料记忆一致性(MMC)
  • 高阶常识推理:概念行为推理(CAR)、文化常识推理(CCR)、预防性因果推理(PCR)
  • 具身物理推理:生物行为推理(BBR)、并发动作协调(CAC)

每个维度提供精心设计的 8 个问题,从基本感知到关系推理再到高级因果或语义推理,由多模态大模型(如 Qwen3-VL)进行评估,从而量化生成视频与推理意图的吻合程度。

实验结果亮点

VBench-T2V 综合测评中,Lumos-Nexus 获得了 84.12 的总分,超越了包括 HunyuanVideo、CogVideoX1.5-5B、Wan2.1-14B 等众多主流模型及原有的连接器式统一模型 Omni-Video。尤其难得的是,语义对齐分数从 Omni-Video 的 79.10 提升至 80.52,充分说明引入大生成器并未损伤,反而进一步强化了推理驱动的语义遵循能力。

VR-Bench 上,Lumos-Nexus 同样表现亮眼。基于 Wan2.1 体系的对比中,其总分 79.28 不仅高于 Wan2.1-14B 的 78.23,更大幅超越 Omni-Video 的 72.78。进一步,将大生成器替换为更强的 Wan2.2-T2V-A14B 后,Lumos-Nexus* 的 VR-Bench 总分达到 81.90,再次证明了框架的通用性和扩展性。

消融实验证实,时域过渡锐度 γw=0.3\gamma_w=0.3、带宽范围 [0.35,0.70][0.35,0.70] 时平衡性最优;RMS 对齐虽只带来 0.05 的总分提升,但在保持数值稳定、避免视觉崩溃上至关重要。

实践应用建议

Lumos-Nexus 的思路对于实际视频生成系统极具指导价值:

  • 模型组合策略:当需要融合理解模块和大型生成器时,不必追求端到端全量微调,可以寻找或构建共享潜在空间的模型对(如同系列的 1.3B 和 14B),采用训练轻量、推理桥接的策略,大幅降低训练成本。
  • 推理优化:UPFB 是一种即插即用的推理增强模块,可直接嫁接于现有连接器式统一模型。对于需要理解复杂指令的场景(如故事可视化、教育内容生成),该框架可在不增加训练负担的前提下,提升物理合理性和叙事连贯性。
  • 基准检测:利用 VR-Bench 可系统性地诊断生成模型在物理、文化、因果等推理层面的短板,引导定向改进。

未来发展方向

尽管 Lumos-Nexus 取得了显著成效,但仍有可探索空间:

  1. 潜在空间异构的桥接:目前要求两个生成器共享 VAE 潜在空间。若能设计可学习的对齐模块,将异构模型也纳入框架,将极大拓宽适用范围。
  2. 更长时程的因果推理:VR-Bench 覆盖了多种推理,但长距离因果链、复杂社会交互等尚未囊括。扩展基准的深度与广度,将推动视频模型的“世界模型”能力。
  3. 多模态条件融合:当前仅融合了文本推理信号,未来可引入音频、触觉等更多模态的条件,实现更全面的推理驱动生成。
  4. 实时应用:大生成器推理速度仍是瓶颈,模型量化、级联蒸馏等技术与 UPFB 结合,有望实现高效且推理强的高清视频实时生成。

总结

Lumos-Nexus 另辟蹊径地解决了视频统一模型中训练成本与生成质量难以兼得的问题。其提出的“训练轻对齐、推理重桥接”范式,以及精细的频率域融合策略,为多模态生成领域提供了全新的训练-推理协同框架。配套的 VR-Bench 也为评估视频生成模型的推理能力树立了标杆。这一工作不仅具有显著技术价值,更为开发能理解并生成符合真实世界逻辑的智能视频系统,开辟了一条高效可行的路径。