OmniGameArena：面向具备改进动态的 VLM 游戏智能体的统一 UE5 基准

论文信息

标题: OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

作者: Mingxian Lin, Shengju Qian, Yuqi Liu, et al.

发布日期: 2026-06-08

PDF 链接: 下载 PDF

背景与研究动机

视觉语言模型（VLM）驱动的智能体正从单纯的文本回答转向在交互式环境中执行行动，而游戏是检验这种能力转移的天然压力测试场。现有的游戏基准大多只报告每个智能体在每款游戏上的首次尝试得分，且几乎完全集中在单人模式上。这导致两个重要维度被忽视：一是智能体反复交互同一任务时表现如何提升，二是智能体在对抗（PvP）和合作（Coop）场景下的独特能力，如对手建模、角色分配和队友失误恢复。此外，商业 VLM、开源 VLM 以及专用游戏策略通常缺乏统一的评估协议，难以公平比较。

为解决上述缺口，研究者提出了 OmniGameArena——一个包含 12 款全新虚幻引擎 5（UE5）游戏的实时基准，以及构建于其上的改进动态曲线（IDC）反射框架。该基准覆盖单人（7 款）、PvP（3 款）和合作（2 款）三种模式，所有游戏均为评估而专门构建，以降低预训练数据泄露的风险。

核心方法：统一基准与反射式提升框架

OmniGameArena 基准设计

该基准的 12 款游戏在 UE5 中从零开发，共享统一动作接口（键鼠和游戏手柄），允许商业 VLM、开源 VLM 和专用策略在同一环境条件下进行评估。每款游戏都针对特定的具身能力进行设计，如空间导航、反应速度、规划、对抗和合作等，并通过归一化到 $[0,1]$ 区间的连续指标衡量进度。例如，“LastStand” 是平台生存游戏，得分由生存时间决定；“SharedFloor” 则要求两个智能体在共享空间中协作完成交货订单。

为防范数据污染，研究者采取了主动规避策略：发布前进行网络曝光审计，确保游戏名称、任务描述等关键信息不被模型记忆；视觉资产组合和关卡逻辑均独特设计。实证分析显示，OmniGameArena 的游戏识别率为 $0.0\%$ ，底层机制泄露率仅为 $50.0\%$ ，远低于现有基准，有效减少了预训练先验对评估的影响。

改进动态曲线（IDC）框架

IDC 是叠加在每局循环之上的反射式外循环，旨在捕捉智能体在多次反省中自我提升的完整轨迹。它包含三个核心模块：

经验采集模块：在当前 “技能提示” 下运行 $K$ 个回合，记录轨迹和平均分数 $S_r$ 。
反射模块：一个工具使用型反射 LLM 自主检查新轨迹和持久状态（如经验笔记本和先前技能），依次执行探索（读取轨迹）、诊断（列出失败模式）、验证（提议新技能并经过一个独立 LLM 裁判的核验）和蒸馏（最终确定下一个技能提示 $m_{r+1}$ ）四个阶段。反射过程完全自主，不依赖固定脚本。
持久模块：维护经验笔记本、经过验证的技能集和分数曲线，并引入最佳技能回滚机制：若当前回合分数低于历史最优的 $50\%$ ，则重置为最优技能，防止技能偏离灾难。

经过 $R$ 轮迭代后，得到一条完整 IDC 曲线 $[S_0, S_1, \dots, S_R]$ 。重要的是，IDC 不仅关注最终得分，还揭示分数如何演化以及习得技能在未见过的任务变体上的迁移表现，这两个观测维度是传统单轮排行榜所无法体现的。

创新点与贡献

本研究的贡献可归纳为三个层面。第一，构建了OmniGameArena 基准，这是首个在 UE5 中从头创建的、覆盖单人、PvP 和合作三种交互模式的统一测试平台，所有游戏共享统一动作接口，为异构智能体提供了公平的竞技场。第二，提出了IDC 反射框架，它通过多轮、工具使用型的自主反射，将单次得分扩展为完整的改进轨迹和迁移测试，揭示单纯排行榜指标所掩盖的能力差异。第三，针对 12 个智能体的实证研究表明，不同游戏上的领先模型频繁轮换，且原始任务上的增益并不能可靠预测变体上的迁移表现，这一发现对智能体的泛化性评估具有重要启示。

实验结果与分析

冷启动排行榜

在 7 款单人游戏中，没有单一模型全面领先：GPT-5.5 在 4 款游戏中排名第一，Claude Opus 4.6 凭借极高的 CueChase 得分（0.840）领先其他模型，而 Gemini 3.1 Pro 则在 MonsterShoot 中表现突出（0.710）。有趣的是，新版模型并非总是更强：Claude Opus 4.6 在 5 款单人游戏中优于更新的 4.7 版本。开源 VLM 和专用策略普遍表现较差，Qwen3.5 变体的得分普遍低于 0.15，NitroGen 和 Open-P2P 则在多数任务上接近零分，凸显出基准的任务多样性远超这些窄域策略的训练分布。

PvP 游戏进一步揭示了非传递性：在 MidlineClash 中，Kimi K2.5 能够以全胜战绩击败 Claude Opus 4.6，但 Claude 几乎是其他模型的手下败将，这表明游戏特定战术与单人能力排名并不一致。合作游戏中，GPT-5.5 继续领先，但即使最强者在 SharedFloor 和 HandoffRun 上的得分也仅为 0.368 和 0.184，模型间的协调能力仍然是一个未解决的挑战。

IDC 曲线与迁移分析

对 LastStand 和 SharedFloor 运行 10 轮 IDC 后，所有四个顶级模型均实现了对初始基线的大幅提升。以 LastStand 为例，最佳回合增益在 $+0.54$ 到 $+0.70$ （即生存分数提升 $130\%$ 到 $437\%$ ）之间。然而，峰值性能往往出现在曲线中段而非最后一轮，两个 Opus 模型的最佳得分与最终得分间存在约 0.4 到 0.5 的退化，这验证了 IDC 中最佳技能回滚机制的必要性。

迁移到三个未见任务变体的结果十分有趣。SharedFloor 变体仅改变工作台和物品放置位置，合作规则不变，所有模型均获得正向迁移。而 LastStand 的变体破坏了某些技能所依赖的 “安全孤岛”：变体 2 采用集群掉落，导致依赖 “站住不动” 策略的 Opus 模型大幅崩溃（分数下降 $72\%$ 和 $76\%$ ），但 GPT-5.5 的 “短暂移动后重新评估” 策略却实现了 $+79\%$ 的增益。这表明技能风格（保守的静态策略 vs. 适应性动态策略）是决定迁移成败的关键，而非原始任务上的增益量。这一发现是 IDC 框架揭示的最重要规律。

实践应用与未来发展方向

OmniGameArena 和 IDC 框架为 AI 游戏智能体的开发、比较和部署提供了系统化工具。在实际应用中，开发者可利用该基准的多样化模式和统一接口，迅速筛选出在特定任务类别（如需要快速反应的射击、需要分工的合作场景）中表现优异的模型，并借助 IDC 曲线评估其自改进潜能。对于企业而言，IDC 暴露的原始任务增益与变体迁移脱节的现象，意味着仅凭单轮排行榜选择模型可能导致泛化能力差的技能——评测流程必须包含多轮反射和变体测试。

未来工作可从几个方向展开。首先，当前的 IDC 实验仅涵盖两个环境和少量变体，计算资源允许时，应将其扩展到更多游戏和更丰富的变体。其次，可探索将单一技能提示扩展为可增长的技能库（类似 Voyager），以观察长期记忆和技能复用对改进曲线的影响。再次，验证非对称反射设置（例如用小模型驱动游戏、用强模型进行反思）是否能实现更高效的提升。最后，也可将 IDC 框架与真实机器人环境结合，研究具身智能体在实物操作中的自我改进特性，弥合虚拟评测与现实部署之间的差距。

总结与展望

OmniGameArena 通过 12 款全新 UE5 游戏和 IDC 反射框架，重新定义了 VLM 游戏智能体的评估方式。它突破了单纯单一得分的局限，揭示了智能体在多轮交互中自我完善的能力及其技能在分布外变体上的迁移模式。实验证明，顶尖商业 VLM 在不同游戏上各有千秋，但开源模型与专用策略的泛化性仍待加强；合作模式下智能体间的协调缺口依然显著；而反射式改进虽能带来显著增益，却未必能得到良好的迁移技能，这为后续研究指明了方向：评估智能体的真正质量，不仅在于它首次能做得多好，更在于它如何学习、如何反思，以及它的学习能否泛化。