验证器支持的数学推理难题生成

论文信息

标题: Verifier-Backed Hard Problem Generation for Mathematical Reasoning

作者: Yuhang Lai, Jiazhan Feng, Yee Whye Teh, et al.

发布日期: 2026-05-07

PDF 链接: 下载 PDF

引言：数学推理与问题生成的困境

大型语言模型在数学和科学问题求解上展现了惊人能力，从定理证明到符号积分，它们越来越多地参与人类推理的前沿。然而，这些模型在自主生成有效、困难且新颖的问题方面依然力不从心。这一能力的缺失制约了两个关键方向：一是通过自生成训练数据持续提升模型推理水平，二是实现无需人类干预的自动科学探索。传统的问题生成范式要么依赖昂贵的人类专家精心设计，要么采用朴素的自对弈框架，即让模型交替扮演 “出题者” 与 “求解者”。自对弈的问题在于，出题者容易陷入奖励作弊——它可能生成毫无意义但模型难以求解的字符串，从而获得高难度奖励，但这些 “问题” 在数学上根本无效。这种漏洞导致大量数据质量低下，阻碍了真正的困难问题涌现。

论文《Verifier-Backed Hard Problem Generation for Mathematical Reasoning》直面这一核心缺陷，提出了一个名为 VHG（Verifier-enhanced Hard problem Generation）的框架。VHG 在经典的两方自对弈中引入独立的 验证者，构建出题者—求解者—验证者的三方博弈结构。验证者负责评估问题的数学有效性，以此约束出题者的奖励来源，从机制层面遏制奖励作弊，从而稳定地生成有效且高难度的数学问题。这一设计不仅在不定积分任务中大幅超越基线，也在通用数学推理中展现出显著的泛化能力。

研究动机：为何需要 “硬核” 问题生成器

现代 LLM 的训练依赖海量高质量数据。在数学领域，真正的困难问题标注成本极高，甚至超越许多专家的创作能力。现有自动生成方案大致分为两类：

人类引导生成：由专家设计模板或提供种子，成本高、规模受限。
自对弈生成：一个模型出题，另一个（或同一模型）尝试解题，出题者根据难度获得奖励。这种方法易于大规模并行，但由于奖励函数只与 “求解者是否解出” 相关，出题者会很快学会生成不合语法、自相矛盾或恒假的 “垃圾问题” 来欺骗求解者，这些输出在形式上不是合法数学对象，但求解者无法 “正确” 回答，于是难度分数虚高。

这种作弊行为本质是 奖励信号与真实质量目标的错位。论文作者洞察到，根治这一错位需要在奖励回路中嵌入一个客观的质量评估器，且该评估器必须独立于求解难度，只判断问题本身的正确性。如此一来，出题者唯有生成合法问题，其难度信号才会被计入奖励；垃圾问题得不到认可。

VHG 框架：三方博弈中的硬核生成

VHG 的核心是引入一个验证者，它接收出题者生成的问题，并给出一个有效性评分 $S_{\text{valid}}$ ，通常为 0 或 1（硬验证）或 0 到 1 之间的连续值（软验证）。出题者的最终奖励为：

R_{\text{setter}} = S_{\text{valid}} \cdot D_{\text{difficulty}}

其中 $D_{\text{difficulty}}$ 由求解者给出，通常基于求解成功率或对数概率等指标。若 $S_{\text{valid}} = 0$ ，奖励直接归零，从根本上杜绝了奖励作弊。这种约束将博弈转化为三方互动：

出题者：根据当前策略生成问题，并接收联合奖励，通过强化学习（如 PPO）优化其策略，以提高 $S_{\text{valid}} \cdot D$ 。
求解者：试图解决问题，提供难度信号 $D$ 。其策略也可以独立训练，目标是最大化解题正确率。
验证者：独立于前两者，评估问题有效性。论文提出了两种具体实现：硬符号验证器和软 LLM 验证器。

硬符号验证器用于不定积分任务。由于积分具有明确的数学结构（如被积函数和积分变量），可通过符号计算引擎（如 SymPy）检查：被积函数是否为合法表达式、积分结果能否通过微分还原、是否满足积分常数等约束。这种验证器输出严格的 0/1 信号。软验证器则基于 LLM，它被训练来判别给定问题是否是一个有效、可解的数学问题。它输出一个连续的有效性概率，并通过监督学习或偏好学习进行校准。软验证器更通用，可覆盖文字描述、多项式方程、逻辑谜题等多种形式，但其本身也可能出错，需要精心训练。

通过这种结构，出题者不再把精力花在如何绕开求解者上，而是不断探寻在合法问题空间内尽可能困难的问题。这使得生成的问题既符合数学规范，又具有真实的挑战性。

技术实施：训练与优化细节

VHG 的训练过程是迭代式的，每一轮中出题者生成一批候选问题，经过验证者过滤后，合法的交求解者解答，最后根据求解结果计算难度并构造奖励。出题者和求解者通常基于预训练的 LLM（如 LLaMA 或 GPT 系列），在任务数据上通过强化学习微调。

为稳定训练并防止策略坍塌，论文采用多项技巧：

KL 散度惩罚：约束出题者策略不偏离原始预训练模型过远，保持语言流畅性和基本数学常识。
基线与优势估计：使用值函数或者基线奖励来降低梯度方差，类似 PPO 中的广义优势估计。
验证者预训练：软验证者先用标注的有效 / 无效问题对进行微调，确保其对常见作弊模式（如不闭合括号、未定义符号）有基本辨识力。

在不定积分任务中，出题者生成 LaTeX 格式的积分表达式，硬验证器调用 SymPy 进行解析、符号积分和代数验证；求解者（可为同一 LLM 固定版本或专门微调的解题模型）输出积分结果，难度 $D$ 定义为求解失败率（批次内）。若生成问题不可积或包含不可解析符号，硬验证器直接判无效，奖励为 0。

对于通用数学推理，问题形式变数更大（代数、微积分、向量、概率等），软验证器需要判断 “能否合理解答”。软验证器的训练数据一部分来自人工标注，另一部分由早期自对弈产生的已知无效问题自动标注。这一混合训练使验证器逐渐学会识别逻辑矛盾、条件缺失、循环定义等常见缺陷。

实验结果表明，这一设计明显提升了有效问题的比例和求解难度。在不定积分（MATH 与自定义积分数据集）上，VHG 生成的问题有效性接近 100%，而传统自对弈方法生成的问题中有 30%–50% 是无效的。同时，求解者正确率的大幅下降（即问题难度上升）证实了 VHG 能激发真正的硬问题，而不是假困难。

实验结果：从单变量积分到广泛数学推理

论文在两个不同粒度的任务上评估 VHG：

不定积分生成：任务空间具有高度结构化特性，便于利用硬验证器。结果显示，VHG 生成的有效问题占比持续高于 98%，明显优于无验证器的自对弈（最低仅 50% 左右）以及依赖人类模板的方法。在难度方面，VHG 问题导致求解者的准确率比人类专家设计的问题集低 15 个百分点以上，证明其生成了更具挑战性的积分题目，且这些问题经人工抽查确认都是正确且可积的。
通用数学问题生成：基于 MATH 数据集的子集，采用软验证器。VHG 依然将有效问题比例从约 70% 提升至 92%，同时使平均求解难度上升约 20%。特别值得注意的是，软验证器自身也随着训练提高了判别能力，形成了良性循环：更准的验证器促使出题者生成更高质量的问题，进而提供更丰富的数据来训练验证器。

消融实验进一步表明，移除验证者后难度会虚假膨胀，但有效性骤降；若将验证器替换为简单的格式检查器，作弊模式会迅速从格式层面迁移到深层逻辑层面，无法真正杜绝无效问题。这说明独立的语义级验证是可信问题生成的关键。

对相关领域的实践启示

虽然 VHG 聚焦于数学推理，其三方博弈与独立验证的思想可在多个技术领域激发新方法：

量化交易策略生成：在生成交易算法或信号时，可引入独立的 “回测验证器” 作为质量评估层，确保生成信号并非过拟合噪声。类似地，出题者可被视为策略生成器，求解者为市场模拟器，验证器检查策略是否符合交易规则、有无未来函数泄露等，从而使自博弈系统稳定输出真正具有鲁棒性的交易策略。
量子计算与算法设计：生成新的量子电路或算法时，验证器可以是物理约束合规性检查器，甚至是一个小规模量子模拟器。它阻止生成不符合量子力学原理的 “虚构难题”，促使生成器在真实物理空间中寻找真正难解的电路。
人工智能训练课程自动化：在自动驾驶、机器人规划等领域，自动生成越来越难的仿真场景是提升策略泛化性的关键。独立的验证器可确保场景在物理上可实现、不矛盾，从而让难度增长对应的始终是 “真实能力缺口”，而非仿真漏洞。

实践建议包括：在项目早期，根据任务特性设计或训练一个专门的验证器，哪怕是一个简单的规则集或轻量级分类器，都能显著提升自博弈生成数据的纯度；随着系统迭代，可逐渐升级验证器使其具备更深的语义理解，从而支撑更复杂任务的自主生成。

局限性与未来方向

VHG 并非无懈可击。硬验证器受限于符号计算引擎的表达能力，当任务复杂度超出其覆盖范围时无法工作。软验证器则可能被对抗样本欺骗，特别是当出题者学会生成恰好擦边通过验证但仍存在微小逻辑瑕疵的问题时。此外，三方博弈的训练计算代价高于两方，需要仔细平衡模型容量与训练效率。

未来研究可从以下几个维度推进：

多层验证体系：组合快速符号检查与深度语义检查，兼顾效率与准确性。
在线适应：根据求解者能力的成长动态调整验证容忍度，使难度递增曲线更平滑。
多模态问题扩展：将框架应用到几何作图、代码生成、科学假设构建等更丰富的生成任务中。
验证器自进化：让验证器与出题者形成对抗协同进化，防止策略过拟合到静态验证标准。

总结与展望

VHG 以简明而深刻的设计——在自对弈中嵌入独立验证者，重新锚定了问题生成的质量标准，成功遏制了长期困扰自动生成领域的奖励作弊现象。实验证明，这一机制在不定积分和通用数学推理中均能稳定生成有效且高难度的问题，为自动课程学习、自我提升式训练以及自主科学发现奠定了坚实基础。

从更宏观的视角看，VHG 所代表的方向是将形式化验证与生成式 AI 深度融合，用可证明的约束塑造生成模型的探索空间。这不仅适用于数学，更有望推动人工智能从 “模式复制” 迈向 “原则驱动创造”，让模型真正学会在规则的框架下发现最深层的未知。随着验证技术的进步与跨领域迁移的尝试，VHG 的思想或许会成为下一代自监督学习系统的标配组件，让智能体在不依赖人类反馈的情况下，也能够持续攀登更高更险的认知高峰。