ActCam:面向视频生成的零样本联合相机与 3D 运动控制

arXiv: 2605.06667v1

论文信息

标题: ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation

作者: Omar El Khalifi, Thomas Rossi, Oscar Fossey, et al.

发布日期: 2026-05-07

arXiv ID: 2605.06667v1

PDF 链接: 下载 PDF

背景与动机:视频生成中“表演”与“摄影”的双重挑战

视频生成技术的飞速发展为数字内容创作打开了新的可能性。然而,要将一段普通的源视频迁移到全新的场景中,并同时实现精细的表演控制与镜头运动控制,仍然是一项极具挑战的任务。这里的“表演”指的是视频中角色的三维运动与姿态变化,“摄影”则对应相机轨迹——包括内在参数(焦距、光圈等)与外在参数(位置、朝向)随时间的演变。现有的视频生成方法大多仅支持姿态控制,或需要针对特定相机轨迹进行额外训练,难以在零样本(zero-shot)条件下同时满足这两种需求。

ActCam 正是在这一背景下被提出。它的核心目标十分清晰:给定一段包含运动角色的源视频,以及一个目标相机运动序列,生成一段新视频,其中角色的原始运动被忠实地迁移过来,同时严格遵循指定的相机轨迹。整个过程无需任何微调,即不依赖特定角色或场景的训练数据,完全建立在预训练的图像到视频扩散模型之上。这一设计意图使得 ActCam 天然具备通用性,能够适应多样化的角色和场景,大幅降低了应用门槛。

从艺术创作角度看,导演既需要演员精准的表演,也需要摄影师恰到好处的镜头调度。ActCam 首次在零样本框架下将二者合而为一,使得创作者可以在后期灵活调整视角,而无需重新拍摄或进行繁复的三维重建。因此,这项研究不仅在学术上探索了扩散模型的组合控制能力,也为影视特效、虚拟制作等领域提供了极具实用价值的思路。

核心方法:几何一致的姿态-深度条件与两阶段引导

ActCam 的方法论建立在两个关键支柱之上:几何一致的条件生成,以及分阶段的扩散采样调度。其底层模型是一个预训练的图像到视频扩散模型,该模型能够接受场景深度图和角色姿态作为额外条件输入。

从源视频提取一致的条件

给定源视频(含运动角色)和目标相机轨迹,ActCam 首先需要生成一系列逐帧的姿态图(pose)深度图(depth),它们必须在几何上跨帧保持一致。具体而言:

  • 姿态图来自对角色运动的估计,表达角色关节或轮廓在每一帧中的二维投影位置。
  • 深度图则根据目标相机的外参和内参,结合场景几何(通过单目深度估计或结构光等先验获得),渲染出每一帧视角下的深度信息。关键在于,深度图的生成过程严格遵循相机投影模型,从而保证相邻帧之间物体远近关系的连续性。这避免了许多现有方法中因深度不一致导致的闪烁或场景漂移。

两阶段条件调度:先结构,后细节

获得姿态和深度条件后,进入扩散模型的迭代去噪过程。ActCam 设计了一种精巧的两阶段条件调度

  • 早期去噪阶段(如总步数的前 50%~70%):同时使用姿态图和深度图作为条件。深度图此时扮演“结构锚定”的角色,它强制生成过程遵循场景的空间布局和三维遮挡关系,确保相机运动带来的透视变化得到正确表达。姿态图则提供角色的位置与动作线索。两者结合,让模型在粗粒度上迅速构建出符合几何约束的整体框架。
  • 后期去噪阶段丢弃深度条件,仅保留姿态图作为引导。这么做的原因在于,深度图毕竟包含大量低频的结构信息,若全程施加会过度约束生成过程,抑制高频细节(如衣物褶皱、面部微表情、光线变化)的自然涌现。撤去深度约束后,模型在姿态引导下自由补充纹理、光影等精细外观,从而提升视觉质量,同时仍然保持角色运动与相机视角的一致性。

两种条件的切换由一个衰减调度因子控制,实现平滑过渡,避免生成画面在结构松绑后产生突变。整个采样过程可以表示为:

xt1=Denoise(xt,t,cpose,λ(t)cdepth)x_{t-1} = \text{Denoise}\left(x_t, t, c_{\text{pose}}, \lambda(t)\cdot c_{\text{depth}}\right)

其中 λ(t)\lambda(t) 在早期为 1,到某个噪声水平后衰减至 0。这种阶段式引导在无需重新训练模型的前提下,巧妙平衡了几何约束与视觉细节。

镜头控制的具体实现

对于相机参数,ActCam 需要处理两类常见镜头效果:静态相机(固定视角下的角色运动)和动态相机(推拉摇移等运动)。目标相机轨迹可由用户直接指定一系列外参矩阵,或通过描述(如“环绕拍摄”)自动生成。深度图渲染则利用这些外参,结合一个粗略的场景三维表示(例如从单张图像重建的网格或点云)。这种表示不必非常精确,因为扩散模型的生成能力可以弥补部分几何模糊性,但需要保证相对深度顺序正确,以约束遮挡关系。

创新点与贡献:零样本联合控制的突破

ActCam 的主要贡献可以归结为以下三点:

  1. 首次实现零样本下的相机与姿态联合控制:之前的零样本方法大多只支持姿态控制(如 MagicAnimate、Animate Anyone),或需要针对特定相机轨迹训练适配器(如 CameraCtrl)。ActCam 证明了只要有一个预训练的图像到视频扩散模型,并配以几何一致的条件生成和分阶段调度,就能在不增加任何训练参数的情况下完成这一复合任务。

  2. 提出深度辅助的约束松解策略:两阶段条件调度并非简单的早停(early stopping),而是基于对扩散过程中低频与高频信息恢复规律的理解。深度条件在早期建立不可动摇的几何骨架,后期退出则留给模型“想象”的空间。这种理念可以推广到其他需要多重条件控制生成的场景。

  3. 构建了系统的评估基准和人类偏好测试:论文在多个涵盖大幅度视角变化的数据集上进行了定量和定性评估,不仅展示了 ActCam 优于单纯姿态控制和现有相机控制方法的表现,还通过人类评价证实了其在视觉质量和运动保真度上的优势,特别是在视角剧烈旋转(如从正面转为侧面)的情况下,ActCam 的几何一致性明显胜出。

实验结果分析:在挑战性视角下的显著优势

实验部分着重考察了三个维度:相机轨迹遵循程度(camera adherence)、角色运动保真度(motion fidelity),以及整体视觉质量。对比对象包括仅使用姿态控制的基线方法(代表现有主流的零样本姿态迁移),以及最近提出的联合训练方法(如 AnimateDiff + CameraCtrl 的变体)。

定量指标通常采用姿态估计误差(比较生成视频中角色姿态与目标姿态的差异)、相机参数回归误差(通过结构光法或视觉里程计估计生成视频的相机轨迹,与目标轨迹对比),以及 FVD(Fréchet Video Distance)等生成质量指标。人类评估则让参与者从运动自然度、视角符合度和综合喜好几个角度打分。

结果显示:

  • 在相机轨迹出现显著平移或旋转时,仅姿态控制的方法常会出现角色漂浮、背景滑动等几何失真,而 ActCam 依然能稳定地渲染出符合透视原理的场景。
  • 与需要训练的相机控制方法相比,ActCam 在零样本前提下取得了持平甚至更优的相机一致性,同时保留了预训练模型强大的先验知识和泛化能力,对不同风格的角色和背景适应性更强。
  • 消融实验证实了深度条件后期退出的关键作用:若全程保留深度,视频会出现过度平滑、缺乏纹理细节的现象;若完全不使用深度(等同于姿态-only),相机控制能力急剧下降。这验证了分阶段调度的必要性。

实践应用建议与未来发展方向

对于量化交易、量子计算、人工智能等领域的从业者,ActCam 提供了一种轻量、可插拔的多条件控制范式。以下是一些具体的实践建议和延伸思考:

  • 视频生成流水线的模块化设计:在构建视频生成产品时,不必重新训练整个模型来引入新控制条件,而可以仿照 ActCam,设计一个“条件生成器”和“扩散调度器”。条件生成器负责将用户意图(如相机轨迹、动作迁移)转化为与预训练模型兼容的条件信号;调度器则智能地决定每个去噪阶段哪些条件参与、权重如何。这种解耦显著降低了模型维护成本,方便快速迭代新功能。

  • 深度与几何线索的灵活获取:实践中,场景深度可以通过单目深度估计网络(如 MiDaS、ZoeDepth)实时提取,或是利用结构光传感器。对于无法获取真实场景深度的虚拟制作,可从三维引擎直接渲染。ActCam 表明深度图不必完美,只要大致正确即可,这为低算力设备上的应用创造了可能。

  • 扩展到更复杂的交互控制:未来可探索更多类型的几何条件,如法线图、语义分割图,并设计对应的调度策略。还可以将 ActCam 与文本提示相结合,实现对角色服装、天气、光照等的高层语义控制,形成“动作 + 视角 + 风格”三维控制空间。

  • 跨领域应用:在机器人仿真中,可借助 ActCam 的思想生成多样视角的训练数据;在数字人直播中,可实时调整虚拟摄像机的运动,同时保持数字人的动作一致;在电影预览(previsualization)环节,导演可快速预览不同镜头语言下的表演效果。

从研究角度看,仍有若干方向值得深入:

  • 更精细的时序一致性:目前模型采用逐帧条件生成,虽然深度条件保证了逐帧几何一致,但时间轴上的闪烁仍可能出现。可以引入时序平滑约束或光流引导来进一步提升流畅度。
  • 与显式神经辐射场(NeRF)的结合:将扩散模型生成的结果用作神经渲染的粗糙输入,再通过优化重建出高保真的新视角视频,或许能突破扩散模型的分辨率和细节上限。
  • 可控性的理论分析:为什么深度条件后期退出刚好能平衡结构与细节?能否从信息瓶颈或扩散过程的频谱分离角度给出更普适的指导?深化理论有助于设计更优的调度器。

总结与展望

ActCam 通过精巧的条件工程和分阶段扩散引导,在零样本条件下实现了视频生成中角色运动与相机轨迹的联合控制。它的核心思想在于:用几何一致的深度条件在早期铸造结构刚性,后期解放模型生成能力以追求细节真实——这一策略无需额外训练,却能在大幅视角变化下取得卓越的表现。实验证明,该方法不仅在相机遵循度和运动保真度上超越现有零样本方案,还获得了人类评估者的偏好。

放眼未来,随着预训练视频生成模型的不断壮大,类似 ActCam 这样的零样本控制方法将变得越来越重要。它们类似于为“黑箱”模型安装了可插拔的控制舵,让非专业用户也能像专业导演一样,自如调度演员与摄像机。这预示着一个创造力释放的新时代:技术不再成为创意的桎梏,而是成为灵感落地的加速器。