ActCam：面向视频生成的零样本联合相机与 3D 运动控制

论文信息

标题: ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation

作者: Omar El Khalifi, Thomas Rossi, Oscar Fossey, et al.

发布日期: 2026-05-07

PDF 链接: 下载 PDF

背景与动机：视频生成中 “表演” 与 “摄影” 的双重挑战

视频生成技术的飞速发展为数字内容创作打开了新的可能性。然而，要将一段普通的源视频迁移到全新的场景中，并同时实现精细的表演控制与镜头运动控制，仍然是一项极具挑战的任务。这里的 “表演” 指的是视频中角色的三维运动与姿态变化，“摄影” 则对应相机轨迹——包括内在参数（焦距、光圈等）与外在参数（位置、朝向）随时间的演变。现有的视频生成方法大多仅支持姿态控制，或需要针对特定相机轨迹进行额外训练，难以在零样本（zero-shot）条件下同时满足这两种需求。

ActCam 正是在这一背景下被提出。它的核心目标十分清晰：给定一段包含运动角色的源视频，以及一个目标相机运动序列，生成一段新视频，其中角色的原始运动被忠实地迁移过来，同时严格遵循指定的相机轨迹。整个过程无需任何微调，即不依赖特定角色或场景的训练数据，完全建立在预训练的图像到视频扩散模型之上。这一设计意图使得 ActCam 天然具备通用性，能够适应多样化的角色和场景，大幅降低了应用门槛。

从艺术创作角度看，导演既需要演员精准的表演，也需要摄影师恰到好处的镜头调度。ActCam 首次在零样本框架下将二者合而为一，使得创作者可以在后期灵活调整视角，而无需重新拍摄或进行繁复的三维重建。因此，这项研究不仅在学术上探索了扩散模型的组合控制能力，也为影视特效、虚拟制作等领域提供了极具实用价值的思路。

核心方法：几何一致的姿态-深度条件与两阶段引导

ActCam 的方法论建立在两个关键支柱之上：几何一致的条件生成，以及分阶段的扩散采样调度。其底层模型是一个预训练的图像到视频扩散模型，该模型能够接受场景深度图和角色姿态作为额外条件输入。

从源视频提取一致的条件

给定源视频（含运动角色）和目标相机轨迹，ActCam 首先需要生成一系列逐帧的姿态图（pose）与深度图（depth），它们必须在几何上跨帧保持一致。具体而言：

姿态图来自对角色运动的估计，表达角色关节或轮廓在每一帧中的二维投影位置。
深度图则根据目标相机的外参和内参，结合场景几何（通过单目深度估计或结构光等先验获得），渲染出每一帧视角下的深度信息。关键在于，深度图的生成过程严格遵循相机投影模型，从而保证相邻帧之间物体远近关系的连续性。这避免了许多现有方法中因深度不一致导致的闪烁或场景漂移。

两阶段条件调度：先结构，后细节

获得姿态和深度条件后，进入扩散模型的迭代去噪过程。ActCam 设计了一种精巧的两阶段条件调度：

早期去噪阶段（如总步数的前 50%~70%）：同时使用姿态图和深度图作为条件。深度图此时扮演 “结构锚定” 的角色，它强制生成过程遵循场景的空间布局和三维遮挡关系，确保相机运动带来的透视变化得到正确表达。姿态图则提供角色的位置与动作线索。两者结合，让模型在粗粒度上迅速构建出符合几何约束的整体框架。
后期去噪阶段：丢弃深度条件，仅保留姿态图作为引导。这么做的原因在于，深度图毕竟包含大量低频的结构信息，若全程施加会过度约束生成过程，抑制高频细节（如衣物褶皱、面部微表情、光线变化）的自然涌现。撤去深度约束后，模型在姿态引导下自由补充纹理、光影等精细外观，从而提升视觉质量，同时仍然保持角色运动与相机视角的一致性。

两种条件的切换由一个衰减调度因子控制，实现平滑过渡，避免生成画面在结构松绑后产生突变。整个采样过程可以表示为：

x_{t-1} = \text{Denoise}\left(x_t, t, c_{\text{pose}}, \lambda(t)\cdot c_{\text{depth}}\right)

其中 $\lambda(t)$ 在早期为 1，到某个噪声水平后衰减至 0。这种阶段式引导在无需重新训练模型的前提下，巧妙平衡了几何约束与视觉细节。

镜头控制的具体实现

对于相机参数，ActCam 需要处理两类常见镜头效果：静态相机（固定视角下的角色运动）和动态相机（推拉摇移等运动）。目标相机轨迹可由用户直接指定一系列外参矩阵，或通过描述（如 “环绕拍摄”）自动生成。深度图渲染则利用这些外参，结合一个粗略的场景三维表示（例如从单张图像重建的网格或点云）。这种表示不必非常精确，因为扩散模型的生成能力可以弥补部分几何模糊性，但需要保证相对深度顺序正确，以约束遮挡关系。

创新点与贡献：零样本联合控制的突破

ActCam 的主要贡献可以归结为以下三点：

首次实现零样本下的相机与姿态联合控制：之前的零样本方法大多只支持姿态控制（如 MagicAnimate、Animate Anyone），或需要针对特定相机轨迹训练适配器（如 CameraCtrl）。ActCam 证明了只要有一个预训练的图像到视频扩散模型，并配以几何一致的条件生成和分阶段调度，就能在不增加任何训练参数的情况下完成这一复合任务。
提出深度辅助的约束松解策略：两阶段条件调度并非简单的早停（early stopping），而是基于对扩散过程中低频与高频信息恢复规律的理解。深度条件在早期建立不可动摇的几何骨架，后期退出则留给模型 “想象” 的空间。这种理念可以推广到其他需要多重条件控制生成的场景。
构建了系统的评估基准和人类偏好测试：论文在多个涵盖大幅度视角变化的数据集上进行了定量和定性评估，不仅展示了 ActCam 优于单纯姿态控制和现有相机控制方法的表现，还通过人类评价证实了其在视觉质量和运动保真度上的优势，特别是在视角剧烈旋转（如从正面转为侧面）的情况下，ActCam 的几何一致性明显胜出。

实验结果分析：在挑战性视角下的显著优势

实验部分着重考察了三个维度：相机轨迹遵循程度（camera adherence）、角色运动保真度（motion fidelity），以及整体视觉质量。对比对象包括仅使用姿态控制的基线方法（代表现有主流的零样本姿态迁移），以及最近提出的联合训练方法（如 AnimateDiff + CameraCtrl 的变体）。

定量指标通常采用姿态估计误差（比较生成视频中角色姿态与目标姿态的差异）、相机参数回归误差（通过结构光法或视觉里程计估计生成视频的相机轨迹，与目标轨迹对比），以及 FVD（Fréchet Video Distance）等生成质量指标。人类评估则让参与者从运动自然度、视角符合度和综合喜好几个角度打分。

结果显示：

在相机轨迹出现显著平移或旋转时，仅姿态控制的方法常会出现角色漂浮、背景滑动等几何失真，而 ActCam 依然能稳定地渲染出符合透视原理的场景。
与需要训练的相机控制方法相比，ActCam 在零样本前提下取得了持平甚至更优的相机一致性，同时保留了预训练模型强大的先验知识和泛化能力，对不同风格的角色和背景适应性更强。
消融实验证实了深度条件后期退出的关键作用：若全程保留深度，视频会出现过度平滑、缺乏纹理细节的现象；若完全不使用深度（等同于姿态-only），相机控制能力急剧下降。这验证了分阶段调度的必要性。

实践应用建议与未来发展方向

对于量化交易、量子计算、人工智能等领域的从业者，ActCam 提供了一种轻量、可插拔的多条件控制范式。以下是一些具体的实践建议和延伸思考：

视频生成流水线的模块化设计：在构建视频生成产品时，不必重新训练整个模型来引入新控制条件，而可以仿照 ActCam，设计一个 “条件生成器” 和 “扩散调度器”。条件生成器负责将用户意图（如相机轨迹、动作迁移）转化为与预训练模型兼容的条件信号；调度器则智能地决定每个去噪阶段哪些条件参与、权重如何。这种解耦显著降低了模型维护成本，方便快速迭代新功能。
深度与几何线索的灵活获取：实践中，场景深度可以通过单目深度估计网络（如 MiDaS、ZoeDepth）实时提取，或是利用结构光传感器。对于无法获取真实场景深度的虚拟制作，可从三维引擎直接渲染。ActCam 表明深度图不必完美，只要大致正确即可，这为低算力设备上的应用创造了可能。
扩展到更复杂的交互控制：未来可探索更多类型的几何条件，如法线图、语义分割图，并设计对应的调度策略。还可以将 ActCam 与文本提示相结合，实现对角色服装、天气、光照等的高层语义控制，形成 “动作 + 视角 + 风格” 三维控制空间。
跨领域应用：在机器人仿真中，可借助 ActCam 的思想生成多样视角的训练数据；在数字人直播中，可实时调整虚拟摄像机的运动，同时保持数字人的动作一致；在电影预览（previsualization）环节，导演可快速预览不同镜头语言下的表演效果。

从研究角度看，仍有若干方向值得深入：

更精细的时序一致性：目前模型采用逐帧条件生成，虽然深度条件保证了逐帧几何一致，但时间轴上的闪烁仍可能出现。可以引入时序平滑约束或光流引导来进一步提升流畅度。
与显式神经辐射场（NeRF）的结合：将扩散模型生成的结果用作神经渲染的粗糙输入，再通过优化重建出高保真的新视角视频，或许能突破扩散模型的分辨率和细节上限。
可控性的理论分析：为什么深度条件后期退出刚好能平衡结构与细节？能否从信息瓶颈或扩散过程的频谱分离角度给出更普适的指导？深化理论有助于设计更优的调度器。

总结与展望

ActCam 通过精巧的条件工程和分阶段扩散引导，在零样本条件下实现了视频生成中角色运动与相机轨迹的联合控制。它的核心思想在于：用几何一致的深度条件在早期铸造结构刚性，后期解放模型生成能力以追求细节真实——这一策略无需额外训练，却能在大幅视角变化下取得卓越的表现。实验证明，该方法不仅在相机遵循度和运动保真度上超越现有零样本方案，还获得了人类评估者的偏好。

放眼未来，随着预训练视频生成模型的不断壮大，类似 ActCam 这样的零样本控制方法将变得越来越重要。它们类似于为 “黑箱” 模型安装了可插拔的控制舵，让非专业用户也能像专业导演一样，自如调度演员与摄像机。这预示着一个创造力释放的新时代：技术不再成为创意的桎梏，而是成为灵感落地的加速器。