MobileGym：面向移动端 GUI 智能体研究的可验证且高度并行的仿真平台

论文信息

标题: MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research

作者: Dingbang Wu, Rui Hao, Haiyang Wang, et al.

发布日期: 2026-05-25

PDF 链接: 下载 PDF

背景与动机：移动 GUI 智能体的评估困境

移动 GUI 智能体研究正经历爆发式增长，但评估与训练环境始终面临难以调和的权衡。基于仿真器的平台如 AndroidWorld 和 AndroidLab 虽可重复执行，却主要局限于系统工具和简单开源应用，且扩展在线训练需要大量重型仿真器实例。真实设备基准如 MobileBench-OL 能触达日常应用，但实时账号、后端状态漂移、不可逆操作和高昂的硬件维护成本，使得实验难以控制、复现和并行化。这种分裂状态导致两个关键需求无法同时满足：可验证的结果信号（脱离不可靠的 VLM 判别）和可扩展的在线训练（特别是需要相同初始状态的群体策略优化如 GRPO）。

论文提出的 MobileGym 试图弥合这一差距。它的核心洞见在于：GUI 智能体仅通过截图观察和离散动作交互，因此一个轻量级、可编程状态的模拟器只要维持交互保真度——对动作产生真实感屏幕响应——就足以驱动研究，无需复制真实后端。MobileGym 将整个日常移动使用场景移至浏览器，用结构化 JSON 状态实现了日常应用的前所未有的可读、可写、可派生和可验证性，从而为智能体研究开辟了可扩展的在线强化学习新范式。

核心方法：浏览器中的可编程移动世界

分层状态模型与交互保真度

MobileGym 并非试图复现像素级 Android 内部细节，而是在浏览器中实现 Android 风格的交互语义：任务栈、键盘、通知、权限流、意图路由、内容共享和回退键分派等。系统将环境状态抽象为三层：大量只读的世界数据（如公开帖子、商品）、紧凑的运行时状态（用户资料、应用设置等可由智能体修改的数据）和 OS 运行时状态。应用界面通过将运行时状态层覆盖在只读世界数据上来渲染，而智能体的操作只写入运行时状态。这一设计使得快照、重置和状态比较只需处理运行时层，既轻量又精确，同时完整捕获了所有由智能体引发的变更。

确定性的状态可编程验证

在评估层面，MobileGym 实现了突破性的全环境状态比较。每个任务都配备一个确定性的程序化判据，直接检查结构化环境状态，彻底避免了 VLM 判断的模糊性和不稳定性。更关键的是，系统可以比较一个回合的初始状态与终止状态，报告任何超出任务预期结果的非预期副作用——例如智能体完成了订票却无意间发送了一条消息。这一机制不仅提供了精准的二元成功判定，还能计算密集的强化学习奖励信号，同时首次在移动智能体基准中引入了 “意外副作用” 诊断指标，用于衡量智能体的操作谨慎度。

参数化任务模板与 AnswerSheet 协议

MobileGym-Bench 包含 416 个参数化任务模板（256 测试 + 160 训练），覆盖 12 款日常应用和 16 款系统应用。每个模板在运行时通过三种方式动态实例化：指令语义变体、参数采样（联系人、数额等）和环境配置（预置数据）。这一设计将模板扩展为超过 2.7 万个不同任务实例，有效缓解了智能体对固定实例的过拟合。

对于查询类任务，论文提出了 AnswerSheet 协议替代脆弱的自由文本匹配。智能体需在 GUI 中填写类型化字段（数值、日期、选项等），平台根据精确类型匹配器进行判断。这不仅消除了对等价表述的误判，也防止了思维链文本混入答案导致的假阳性，同时保持了 GUI 原生的表单填写交互特性。

声明式导航与轻量并行架构

每款应用的 UI 导航被建模为声明式的扩展有限状态机，既在运行时驱动页面跳转，又支持静态分析与任务轨迹生成。单个浏览器实例仅占用约 400 MB 内存，冷启动约 3 秒，单台服务器即可同时托管数百个并行环境。这一效率使得 GRPO 等多实例并行强化学习在普通硬件上即可运行，无需专用集群。

创新贡献与实验发现

MobileGym 在多个维度上实现了对现有基准的超越。与基于仿真器的环境相比，它首次将日常应用场景纳入完整可编程状态下的可重复评估；与真实设备基准相比，它在保留交互保真度的同时提供了确定性判定、快照派生和零风险操作。

实验结果显示，9 个前沿智能体在 MobileGym-Bench 上的整体成功率从 9.4%（Qwen3-VL-4B-Instruct）到 58.8%（Gemini 3.1 Pro）不等，性能跨度达 6 倍，且四个难度层级呈现出单调递减的区分度。L4 难度（极难）成为前沿模型的关键试金石，只有 Gemini 3.1 Pro 维持了 21.9% 的成功率。意外副作用指标揭示，即使成功率相近的模型，其操作谨慎度也可能相差近两倍，证明了这一诊断指标的重要性。

从模拟到现实的强化学习迁移

最令人瞩目的成果在于 Sim-to-Real 案例研究。基于 MobileGym 的 160 个训练任务，使用 GRPO 对 Qwen3-VL-4B-Instruct 进行 10 步在线微调（96 个并行环境），模拟侧测试集成功率从 9.4% 提升至 22.2%（+12.8 个百分点）。在筛选出的 59 个可等价执行的真实设备任务子集上，真实设备通过率从基线的 32.2% 提高到 72.9%，保留了 95.1% 的模拟侧训练增益。更引人注目的是，训练后的模型在 Reddit 发帖任务中展现出了对缺失必填项（flair 标签）的推理恢复能力，而基座模型却陷入对灰色按钮的无效循环点击。这一案例表明，MobileGym 训练的不仅是表面动作序列，更是可迁移的交互推理策略。

同时，论文对真实设备评估中 VLM 评判的审计发现，Qwen3.6-Plus 的错误率达 10.2%，且与 GPT-5.4 的错误率相同，进一步验证了程序化状态验证相对于 VLM 判断的绝对优势。

实践应用与未来方向

MobileGym 的价值远不止于基准测试。对于从事移动 GUI 智能体训练的研究者，该平台提供了低成本的在线强化学习环境。利用其快照和派生机制，可以开展基于状态对比的奖励塑形、意外副作用惩罚以及多任务课程学习。例如，在单台服务器上即可复制论文中的 96 并行 GRPO 训练，大幅度降低从模拟到真实策略迁移的资源门槛。

在安全与鲁棒性研究层面，MobileGym 的高风险操作模拟（支付、账号注销、批量删除）为研究操作谨慎性与执行能力的解耦提供了无实际后果的实验场。研究者可以系统性地评估智能体在引入干扰通知、余额不足、网络异常等条件下的失效模式，并训练拒绝机制。此外，可控的环境注入功能支持对提示词注入、钓鱼界面等安全威胁的可复现测试。

拓展方向上，MobileGym 的模块化架构支持快速构建特定领域的移动环境，如金融交易、旅游规划或社交安全评测。动态内容的可控注入虽然架构已支持，但尚未深入探索，未来可研究模拟推荐流更新、实时竞价等更复杂的行为。同时，每一交互步产生的可视-结构化状态对 $(s_t^{\text{vis}}, s_t^{\text{json}}, a_t, s_{t+1}^{\text{vis}}, s_{t+1}^{\text{json}})$ 为训练移动 UI 世界模型和轨迹校验器提供了自动生成的丰富数据源。

总结与展望

MobileGym 以交互保真度和全状态可编程性的精巧平衡，解决了日常移动应用难以融入可重复研究的结构性问题。它将浏览器变成了一个可无限派生、零风险、完全确定的移动世界，让基于真实日常任务的在线强化学习首次在普通硬件上成为可能。Sim-to-Real 的实证结果不仅展示了可迁移的策略学习，也为我们描绘了一条脱离昂贵设备农场、绕过后端不可控性的移动智能体训练新路径。这一平台的真正潜力还在于，它将人工智能体能力评测与安全对齐统一在同一基础设施中——既可以测试智能体 “能做什么”，也可以教导它们 “不该做什么”，从而为推动负责任的自主移动智能体研究铺设了坚实的实验基石。