EntityBench:迈向实体一致的长距离多镜头视频生成

arXiv: 2605.15199v1

论文信息

标题: EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation

作者: Ruozhen He, Meng Wei, Ziyan Yang, et al.

发布日期: 2026-05-14

arXiv ID: 2605.15199v1

PDF 链接: 下载 PDF

论文背景与研究动机

多镜头视频生成是当前人工智能领域的重要研究方向,其目标不仅仅是生成孤立的短视频片段,而是构造一个由多个镜头组成的连贯视觉叙事,这对自动化电影制作、故事板预演和长篇内容创作具有深远意义。然而,现有方法面临一个核心挑战:跨镜头的实体一致性。在长序列中,角色、物体和场景的外观极易发生漂移,哪怕微小的变化积累起来也会破坏叙事的整体观感。

当前领域的评估体系存在明显短板。如表 1 所示,主流基准测试如 VBench、OpenS2V-Nexus 等虽然提供了丰富的单镜头质量评估维度,但在多镜头场景下覆盖面严重不足:它们要么缺乏跨镜头评估,要么只在少数镜头上追踪单一实体类型,要么根本无法支持角色、物体、地点三类实体同时追踪。更关键的是,现有基准普遍缺失针对每个镜头的实体调度标注,这使得研究者难以精确诊断一致性在何时、因何而失效。

为了填补这一空缺,本文作者提出了 EntityBench——一个从真实叙事媒体中提炼的大规模多镜头视频生成基准,并配套设计了一套三支柱评估框架。在此基础上,作者还探索了基于显式实体记忆管理的生成系统 EntityMem,以检验明确的实体级上下文控制能否有效提升跨镜头一致性。

核心方法

EntityBench 基准的构建

EntityBench 包含 140 个剧集、共计 2491 个镜头,所有数据均来源于经过筛选的真实叙事媒体,并通过大语言模型进行多阶段精炼。数据集构建经历了严格的质量过滤、内容过滤和窗口选择三个步骤,最终只保留了原始素材中约 5%的最优连续镜头窗口。

数据标注流程采用了多阶段管线:首先利用目标检测器和人脸检测器逐帧提取人物,并通过基于 IoU 的匹配将检测结果关联为镜头内的轨迹片段;随后使用分层凝聚聚类对轨迹片段的嵌入向量进行跨镜头身份关联,再通过 LLM 进行去重和合并;对于难以仅从视觉特征聚类的物体和地点,则先由 LLM 在时间块内提议局部注册表,再合并为剧集级身份,并与剧本进行交叉验证。

所有标注完成后,每个镜头都会得到一份显式的实体调度表,明确规定哪些角色、物体和地点应当在该镜头中出现。剧集按难度分为简单、中等和困难三个等级:困难等级平均包含 8.9 个跨镜头角色,最大重现间隔可达 33.5 个镜头,且 62%的镜头仅提供实体名称而不给出外观描述,直接构成对模型实体记忆能力的极限测试。

三支柱评估框架

EntityBench 的评估体系设计了三个递进式的评测支柱,共计 51 个指标,层层聚焦于不同维度的生成质量。

支柱一:镜头内质量沿用了 VBench 的标准体系,包括主体一致性、时间闪烁、运动平滑度、动态程度、美学质量和成像质量六个维度,旨在判断每个镜头在独立观看时是否质量合格。

支柱二:提示跟随对齐则深入考察每个镜头是否严格遵循了其描述文本。这一支柱建立在统一的实体定位流程之上:使用 GroundingDINO 对每个预定实体进行检测,结合 CLIP 文本-图像相似度判断实体是否实际出现,并标注为“存在”“弱存在”或“缺失”三个状态。若实体出现,则通过多模态大语言模型对其与注册描述的吻合度进行打分,角色、物体、地点各有专门的评价标准。

支柱三:跨镜头一致性是整个评估体系的核心。对于在多个镜头中出现的实体,支柱三从嵌入相似度和 LLM 逐对评判两个维度进行考察。嵌入相似度通过计算每个实体外观与其中央质心嵌入向量的余弦距离来衡量一致性,LLM 评判则采用成对比较的方式:选择最接近质心的外观作为锚点,与其他外观逐对比较,输出“相同/不同”的二值判决和分维度相似度评分。地点的一致性评估额外引入了相机不变提示词,明确要求 LLM 忽略前景人物而专注于场景本身的布局、色调、地标等特征。

该框架还引入了一个关键的一致性保真度门控机制:只有那些通过支柱二中外观保真度检验的实体,其跨镜头表现才会被纳入支柱三的计算。这意味着如果一个方法生成了错误但高度一致的角色渲染,其一致性得分将受到有效压制,从而避免静态重复但内容错误的结果获得虚假的高一致性评价。

EntityMem 系统设计

作者在实验中提出了 EntityMem,一个基于显式实体记忆管理的生成系统,用于探索实体级上下文控制能否改善跨镜头一致性。其核心理念是:在视频生成开始之前,先为每个实体建立并验证其视觉参考,存入持久化的记忆库;在生成每个镜头时,模型可直接从记忆库中检索实体的外观信息,而非依赖于前序镜头生成结果中提取的、可能已经失真的参照。

系统运行分为三个阶段。第一阶段是实体参考生成:由分类代理判断哪些实体需要独立的视觉参考(角色始终需要肖像,地点需要全景背景,物体则视情况而定),肖像代理通过文本到图像工具生成候选图像,并由验证代理检查分割质量、特征正确性等,不合格则重试。第二阶段是关键帧合成:布局代理根据每个镜头的动作描述和实体调度,规划角色位置、摄像机角度以及是否需要多帧关键帧来表现空间变化。对于连续场景镜头,代理还需推理摄像机平移方向并选择匹配的地点视角。第三阶段是记忆增强生成:每个镜头的记忆库被组装为有序序列——先排布带标签的角色肖像,再是合成关键帧,视频骨干模型同时接收这一视觉序列和文本提示。

创新点与贡献

本文的主要贡献可归纳为三个方面。第一,提出了 EntityBench 这一迄今为止最大规模、最全面的多镜头视频生成基准,首次实现了对角色、物体、地点三类实体的同时追踪,并配备了显式的每镜头实体调度表和精细的过渡类型标注。第二,设计了一套逻辑严密的 51 指标评估框架,通过三支柱递进结构和保真度门控机制,有效解耦了视觉质量、文本对齐和跨镜头一致性三个不同维度的评价。第三,通过 EntityMem 系统验证了显式实体记忆管理对提升角色一致性的显著效果,为未来多镜头生成系统架构设计提供了重要参考。

实验结果分析

在 EntityBench 上,作者评估了三种代表性开源方法(HoloCine、CineTrans、StoryMem)以及 EntityMem。实验结果揭示了多个关键发现。

在角色为中心的指标上,EntityMem 展现出绝对优势:角色面部保真度达到 0.740,而次优的 StoryMem 仅为 0.452(Cohen's d 效应量高达+1.71);角色存在率也从 84.9%提升至 96.7%(d=+1.23),意味着在 StoryMem 输出中每 8 个预定角色中就有一个完全缺失。

然而,在物体相关指标上故事发生了反转:StoryMem 在物体保真度和 DINOv2 跨镜头物体相似度上均领先于 EntityMem。作者分析认为,StoryMem 的场景级提示扩展可能更擅长保留场景绑定道具的视觉特征,而 EntityMem 当前的独立物体条件与基础模型权重之间存在一定的兼容性问题。

一个值得细致解读的现象是嵌入相似度与 LLM 身份判断在跨镜头一致性评价上的结构性分歧:StoryMem 在 DINOv2 相似度上领先(cs_face 为 0.792 vs. 0.737),但 EntityMem 在 LLM 判断的角色身份一致性上却大幅领先(llm_face_accuracy 为 0.406 vs. 0.226)。这揭示了一个本质差异:嵌入相似度衡量的是整体视觉特征的统计接近程度,而 LLM 身份判断则更接近人类的“这是不是同一个人”的感知判断。高嵌入相似度可能来自两个截然不同的角色都穿着相似色调的服装,而 LLM 能注意到面部特征、发型等关键身份标识的差异。

实践应用建议

对于从事多镜头视频生成研究或应用开发的团队,本文提供了几点有价值的实践指引。首先,评估体系的设计理念值得借鉴:企业级评估应当将镜头内质量、指令遵循和跨镜头一致性分开测量,而非混为一谈。特别是保真度门控的思路——只对正确渲染的实体才评价其一致性——有效防止了模型通过“一致地错误”来钻空子。

其次,显式实体记忆管理被证明是提升角色一致性的有效路径。在实际部署中,可考虑在生成管线中加入独立的实体注册、参考生成和验证环节,而非完全依赖模型内部隐式地维系一致性。对于对角色形象保持有严格要求的应用场景(如虚拟主播、动画角色系列短视频),这种显式控制尤为关键。

第三,不同实体类型对记忆管理的敏感度存在差异。实验表明角色受益最大,而物体的独立条件可能需要与场景上下文更深度地融合。在实际系统设计中,可以对不同实体类型采用差异化的条件注入策略。

总结与展望

EntityBench 为多镜头视频生成的实体一致性评估提供了迄今为止最系统的工具和标准。它揭示了当前方法在长序列上实体一致性退化的问题,而 EntityMem 则展示了显式记忆管理作为解决路径的潜力。

展望未来,几个方向值得关注。其一,当前 EntityMem 在物体一致性上的劣势表明,实体独立的视觉记忆未必对所有类型都最优,如何针对不同类型的实体设计自适应的记忆策略是值得探索的问题。其二,EntityBench 本身可以通过扩大剧集来源的多样性和增加动画、科幻等不同视觉风格的覆盖来进一步丰富。其三,将实体一致性评估与人类感知研究相结合,更精确地标定哪些类型的实体变异最易被观众察觉和反感,将为生成质量优化提供更明确的目标函数。随着视频生成技术向长内容创作迈进,实体级的一致性和可控性将成为区分实用系统和演示系统的关键分水岭。