IVGT：用于神经场景表示的隐式视觉几何 Transformer

论文信息

标题: IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation

作者: Yuqi Wu, Tianyu Hu, Wenzhao Zheng, et al.

发布日期: 2026-05-15

PDF 链接: 下载 PDF

研究背景与动机

从未标定相机参数的多视图图像中重建连贯的三维几何与外观，是计算机视觉长久以来的核心难题。传统方案通常分步进行：先通过运动恢复结构（SfM）估计稀疏点云与相机位姿，再用多视图立体（MVS）、神经辐射场（NeRF）或三维高斯泼溅（3DGS）完成稠密重建。这类流水线严重依赖精确的相机位姿，且步骤级联，难以端到端优化。

近年来，以 DUSt3R 为代表的视觉几何基础模型彻底改变了 3D 重建的范式。它们直接回归像素对齐的点图（pointmap），无需显式的相机位姿输入，大幅简化了流程。然而，这种显式范式存在两个根本缺陷：输出是离散的，每个像素对应一个三维坐标，无法对空间中任意点进行查询；同一物理表面点可能在多视图中被重复预测，导致冗余和几何不一致。因此，这类模型难以直接提取连续表面，也无法灵活地进行新视角渲染。

针对这一问题，清华大学视觉智能小组提出了 IVGT（Implicit Visual Geometry Transformer），一种从无位姿多视图图像中学习隐式神经场景表示的方法。IVGT 的核心动机是将显式点图范式转向连续隐式几何建模，使模型能够查询任意三维位置的符号距离函数（SDF）值和颜色，从而在单次前向传播中支持网格重建、新视角合成、表面法线估计等多种下游任务，且无需任何测试时优化或后处理。

核心方法与技术细节

IVGT 的整体架构如图 3 所示，包含图像编码、全局场景表示生成、连续三维查询与多视图聚合、几何与外观解码、体积渲染与表面提取等关键模块。

图像编码与场景表示 输入 $N$ 张无位姿图像，首先利用 DINO 提取每张图的 token，再通过 Transformer 交替进行帧内自注意力和全局跨帧注意力，将所有视图的观测聚合到一个统一的正则坐标系中。这种设计无需显式输入相机参数，便可隐式对齐多视图信息。骨干网络同时额外预测每帧的深度图 $D_i$ 和辅助相机参数 $\mathbf{g}_i$ ，为后续查询提供几何线索。

连续三维查询与多视图特征聚合 这是 IVGT 区别于显式模型的关键。给定三维查询点 $\mathbf{x}$ （定义在第一帧的正则坐标系），模型将其投影到所有有效视图中，采样像素对齐的特征 $F_i(\pi(\mathbf{x}))$ 并求和得到图像特征 $\mathbf{z}_f$ 。然而，沿着同一投影射线的不同点会共享相同的像素特征，需要位置编码来区分。IVGT 没有直接使用绝对三维坐标编码，因为绝对坐标依赖参考帧选择，会引入歧义。取而代之的是射线深度编码：计算 $\mathbf{x}$ 在各视图中的射线深度 $d_i(\mathbf{x})$ ，通过 MLP 编码后聚合为 $\mathbf{z}_d$ 。最终将 $\mathbf{z}_f$ 与 $\mathbf{z}_d$ 拼接，形成该点的局部空间特征 $\mathbf{z}$ 。射线深度是视点无关的相对量，保证了视图一致性。

几何与外观解码 空间特征 $\mathbf{z}$ 首先送入 8 层 MLP，解码出 SDF 值 $\hat{s}$ 和中间外观特征 $\hat{\mathbf{z}}$ 。随后将 $\hat{\mathbf{z}}$ 、SDF 梯度（即表面法向量 $\hat{\mathbf{n}}$ ）与经过位置编码的观察方向 $\gamma(\mathbf{v})$ 拼接，通过 2 层 MLP 预测视角相关的颜色 $\hat{\mathbf{c}}$ 。通过级联解码器，几何和外观被统一在连续的隐式场中。

体积渲染与表面提取 模型将 SDF 转换为密度，采用可微体积渲染。沿相机射线采样点，根据透射率和 alpha 值积分得到颜色 $\hat{C}$ 、深度 $\hat{D}$ 和法线 $\hat{N}$ 。渲染损失以 2D 监督方式优化整个场景表示。推理时，先在输入视图预测的深度图基础上确定场景范围，在包围盒内均匀采样 $64^3$ 个点，筛选出 SDF 绝对值较小的有效区域，上采样至 $512^3$ 并计算 SDF，最后用 Marching Cubes 提取连续网格。网格顶点的颜色通过近似的表面法向量替代观察方向计算得到。

训练策略 IVGT 采用两阶段训练。第一阶段仅使用 2D 监督损失：RGB L1 损失、深度渲染 L1 损失、法线损失（L1 与余弦损失）、相机参数 Huber 损失。第二阶段引入 Eikonal 正则项（强制 SDF 梯度范数为 1）和平滑项（使邻近点法向一致），以及直接解码的深度图的不确定性加权损失。训练数据涵盖 ARKitScenes、CO3Dv2、ScanNet、Objverse 等涵盖场景与物体的 9 个数据集，仅需相机位姿和 RGB-D 监督（法线由单目法线估计器生成）。模型在 4 张 A800 GPU 上训练 4 天，初始权重来自 VGGT。

创新点与贡献

IVGT 的核心创新在于提出隐式视觉几何范式，将可泛化的前馈多视图理解与神经隐式表面建模统一起来。

连续几何表示取代离散点图：显式模型为每个像素独立预测三维坐标，导致离散和潜在冲突；IVGT 学习全局 SDF 场，可查询任意点，零水平集自然定义连续表面，无冗余。
无位姿对齐的多视图聚合：通过交叉注意力隐式对齐视图，无需估计相机位姿。结合射线深度编码，消除了绝对坐标对参考帧的依赖，提升了泛化能力。
多任务统一输出：同一隐式表示可同时用于网格重建、新视角图像/深度/法线渲染、点图重建、相机位姿估计等，避免了为不同任务单独设计解码头的繁琐。
高效的前馈推理：一次前向传播即可得到完整场景的连续表面和渲染结果，相较每场景需数小时优化的 MonoSDF 等方法，在速度与质量间取得了显著平衡。

实验结果分析

论文在多个标准基准上进行了详尽评测。

三维网格重建：ScanNet 测试中，IVGT 在 Chamfer 距离、F-score 等指标上大幅超越 COLMAP+MVS、NeuS 等传统方法，甚至超越了部分每场景优化的方法，仅次于使用单目几何先验的 MonoSDF。定性结果显示 IVGT 重建的网格完整、表面连续，如图 4 和图 6 所示，在物体边界附近也能保持良好的连续性，而显式点图则存在稀疏和断裂问题。

点图与相机位姿：IVGT 解码的深度图生成的点图在 7-Scenes、NRGBD、DTU 等多个数据集的精度和完整度指标上优于 VGGT、Fast3R 等最新前馈方法。位姿估计任务中，IVGT 在绝对位移误差（ATE）和相对旋转误差（RPE rot）上达到与 SOTA 模型相当或更优的水平，证明了隐式场并未削弱几何定位能力。

新视角合成与表面估计：虽然 IVGT 在 PSNR/SSIM 上略逊于基于 3DGS 的专用渲染方法（如 WorldMirror），但其从同一 SDF 场渲染出的 RGB、深度、法线图视觉连贯，平滑且无跳变，体现了几何与外观的统一。深度估计和法线估计任务中，IVGT 同样达到了与专用基线（如 DSine）可比的结果，突出了隐式表示在多模态输出上的优势。

消融研究：关于位置信息注入策略的消融实验验证了射线深度编码的优越性。不使用任何位置编码的变体完全无法学习有意义的几何；使用绝对坐标的固定编码或 MLP 嵌入，由于参考帧依赖性，重建指标显著变差。而本文提出的视图相关射线深度编码在各项指标上均获得最佳表现。此外，两阶段训练的必要性被可视化证实：仅用 2D 监督的第一阶段表面粗糙，引入 Eikonal 和平滑正则化后网格变得光滑、一致。

实践应用建议与未来方向

IVGT 的出现为需要快速、连续三维重建的场景开辟了新的可能。在机器人导航与自动驾驶中，实时从多视角图像中提取连续网格和精确深度，可支持碰撞检测和路径规划。与显式点图相比，隐式网格能提供更可靠的表面信息，且可灵活查询空间任意点。在增强现实（AR）与虚拟现实（VR）内容生成中，无位姿输入的特性意味着普通手机拍摄的多视角照片即可直接生成带纹理的网格，大大降低内容创作门槛。

应用时需注意模型的静态场景假设，处理动态对象是首要改进方向。此外，当前渲染质量受限于 SDF 对高频细节的平滑倾向，可以探索将 IVGT 的隐式几何与 3DGS 的显式外观表示结合，例如用 IVGT 提供几何先验或提取的网格来初始化高斯泼溅，兼顾几何连续性与视觉保真度。查询每个采样点都需投影并聚合所有视图特征，计算开销仍然较高，针对此开发更高效的查询策略（如粗到细分层采样、利用缓存等）对实时部署至关重要。

未来研究可向动态场景扩展，通过时间维度的注意力或可变形场支持运动对象；尝试室外无界场景，利用收缩空间或分块处理；并进一步利用大规模预训练提升泛化能力，使模型能够直接应用于互联网规模的未标定图像集合，实现更通用的三维世界理解。

总结与展望

IVGT 通过引入隐式视觉几何 Transformer，成功弥合了前馈多视图学习与神经隐式几何建模之间的鸿沟。它证明了无需相机位姿，便可从多视图图像中直接构建连续的、全局一致的三维场景表示，并在众多任务中取得有竞争力的表现。其核心设计的合理性——视图相关的射线深度编码、级联几何-外观解码、两阶段训练——均通过实验得到验证。该工作代表了视觉几何基础模型从显式回归到隐式建模的重要演进，为后续更灵活、更高效的可泛化三维重建奠定了坚实基础。未来，提升视觉质量、支持动态元素和加速推理，将使这类统一连续场景表示在实际系统中绽放更大价值。