SkillOpt: 自进化智能体技能的执行策略

论文信息

标题: SkillOpt: Executive Strategy for Self-Evolving Agent Skills

作者: Yifan Yang, Ziyang Gong, Weiquan Huang, et al.

发布日期: 2026-05-22

PDF 链接: 下载 PDF

背景与动机：当智能体的 “技能” 不再是静态提示

大型语言模型（LLM）正快速从单轮对话走向复杂任务执行，成为能够调用工具、访问文件、进行多步推理的智能体。然而，当前为这些智能体编写 “技能” 的方式依然原始：要么人工手写，要么通过一次性生成，或者进行缺乏控制的自我迭代修订。这些方法如同没有优化器的神经网络——既无法保证稳定改进，也无法像训练模型权重那样，利用反馈信号系统性地提升技能质量。

论文《SkillOpt: Executive Strategy for Self-Evolving Agent Skills》直指这一痛点。作者指出，如果我们将技能视为智能体适应新领域的核心接口，那么它就应该像模型权重一样，被当作一个可训练的外部状态。这一思想将技能优化从 “提示工程” 的范畴，提升到了 “可复现训练过程” 的高度。

SkillOpt 正是为此而生——一个系统化、可控的文本空间优化器，专为智能体技能的自我进化设计。它的目标不是生成一次性的提示，而是通过深度学习式的训练循环，产出一个紧凑、可审计、可迁移的技能文件（best_skill.md），让冻结参数的 LLM 可以通过外部文本进行领域适配。

核心方法：将技能文档作为可训练状态

SkillOpt 的核心类比是深度学习训练过程，但将优化对象从浮点数权重替换为自然语言文档。整个优化循环包含以下几个关键组件：

前向执行与证据收集 在每一步优化中，冻结的智能体模型使用当前技能执行一批任务（回滚批次），并记录轨迹和评分。这些轨迹数据构成了 “证据”，类似于训练中的小批量数据：批次太小则噪声高，批次太大则更新缓慢。

反向编辑：小批次反思与结构化编辑 一个单独的优化器模型（通常更强）接收轨迹数据，将失败和成功案例分别划分为反思小批次。与单条轨迹的轶事式修补不同，小批次反思能揭示可复现的程序性错误，比如 “总是搜索了错误的数据源” 或 “忘记验证工具的输出”。优化器从失败中提出修正性规则，从成功中提取值得保留的模式，并输出结构化的增/删/替换编辑指令。

文本学习率与有界更新 SkillOpt 引入了模仿学习率的概念：编辑预算 $L_t$ （每个步骤最多允许的技能编辑次数）。优化器在汇总所有编辑后，按预期效用排序，只保留前 $L_t$ 个编辑。这防止了技能文档的无界重写，保留了过去有效的规则，避免了过度拟合局部失败。预算可以按常量、线性、余弦等方案衰减，实现从粗调到细调的自然过渡。

验证门与拒绝编辑缓冲 每产生一个候选技能，都必须通过预留的选择集（ $D_{sel}$ ）验证。只有当严格提高了选择集分数时，候选技能才会被接受，并可能成为新的最优技能。这确保了优化方向始终指向提升泛化性能，而非自说自话。被拒绝的编辑和观察到的失败模式被记录在缓冲区中，作为后续优化步骤的负面反馈，避免重复犯错。

周期级慢更新与元技能 仅靠逐步的局部更新，难以捕捉跨周期的长期规律。SkillOpt 在每个 epoch 结束时，会对比上一 epoch 技能与当前技能在相同任务上的表现，提炼出纵向指导（慢更新），并写入技能文档中受保护的区域。同时，优化器侧还会维护一个 “元技能”，总结哪种编辑模式有效、哪种无效，从而指导未来优化器的反思和排序。这种元技能只存在于训练侧，不增加部署时的推理成本。

整个优化过程结束后，导出的产物就是一个仅几百到两千 token 的简洁技能文件，智能体和执行环境完全不变，却具备了在目标领域大幅提升表现的能力。

创新点：用训练式控制重塑技能进化

SkillOpt 并非简单的提示优化器，它的贡献在于构建了一套完整的 “文本优化框架”：

将技能视为可训练的外部状态：分离执行模型与优化模型，用深度学习中的批处理、验证、学习率、动量等概念武装技能更新过程。
可控性与可审计性：有界编辑、验证门限和拒绝反馈确保技能进化不会失控，最终产物是可读的、紧凑的文本，便于人工检查。
工具无关的架构：通过轻量适配器接口，SkillOpt 可在直接对话、Codex 沙盒、Claude Code 等不同执行环境中工作，产出相同格式的技能文件。
跨模型、跨环境、跨任务的迁移能力：一个优化好的技能可以直接部署到更小模型或不同工具链上，甚至迁移到相邻基准，取得正向增益，证明了其编码的程序性知识具有普遍性。

实验结果：52 个测试单元全面领先

论文在 6 个基准（覆盖问答、电子表格、文档、数学、具身决策）、7 个目标模型（从 GPT-5.5 到 Qwen-4B 小模型）和 3 种执行模式下进行了系统评估，共计 52 个（模型, 基准, 模式）单元。在所有单元中，SkillOpt 都是最优或并列最优，显著优于无技能、人类手写技能、一次性 LLM 生成技能、Trace2Skill（轨迹蒸馏）、TextGrad（文本梯度）、GEPA（帕累托进化提示）和 EvoSkill（技能文件夹进化）等基线。

在 GPT-5.5 直接对话模式下，平均分从 58.8（无技能）提升至 82.3，绝对增益 $+23.5$ 个百分点，比每个单元格最强的基线平均高出 $+5.4$ 个百分点。对于过程性要求高的任务提升尤为显著，例如电子表格操作从 41.8 分跃升至 80.7 分，办公文档问答从 33.1 分升至 72.1 分。在工具辅助环境中（Codex/Claude Code），SkillOpt 同样大幅领先，在电子表格任务上 Codex 模式下将无技能的 27.5 分推高至 85.0 分。

迁移实验进一步彰显了技能产物的可复用性：在 GPT-5.4 上训练的电子表格技能，直接用于 GPT-5.4-nano 时仍带来 $+3.0$ 分的增益；Codex 环境下训练的电子表格技能迁移到 Claude Code，带来了 $+59.7$ 分的惊人提升；数学技能从 OlympiadBench 迁移到 Omni-MATH，三种模型规模均保持正向迁移。这些结果表明，优化出的技能编码了超越具体模型和工具的过程性知识，真正成为了可部署的领域适配构件。

消融实验则确认了有界学习率、拒绝缓冲、慢更新等组件对性能的支撑作用，尤其是移除慢更新和元技能后，电子表格基准的成绩骤降 22.5 个百分点，凸显了纵向巩固的重要性。

实践应用建议

SkillOpt 的思想为智能体技能的自动化生产开辟了实践路径：

在量化交易领域：可以将交易策略的规则、风险控制流程、数据获取协议等封装为可训练技能。利用历史回测数据作为反馈，SkillOpt 能迭代提炼出适配特定市场环境的操作手册，并在不同模型（如 GPT‑5.5 与本地小模型）间复用，降低过度拟合风险。
在人工智能系统内部：对于需要长期维护的对话 AI 或知识库问答系统，可将领域特定的回答规范、查证步骤、多源融合策略作为技能进行优化。SkillOpt 的验证门和迁移能力能确保技能简洁有效，且能随着术语库或政策变化进行周期性更新，而无需重新微调模型。
在多工具编排场景：企业内部常需将多个内部 API 和软件组合为自动化流程。通过 SkillOpt 训练一个技能文件，描述工具调用顺序、错误处理逻辑和输出格式，即可让同一 LLM 在不同执行环境（如 Codex、Claude Code）中高效运作，避免为每个环境手工编写提示。

实施时，需准备评分明确的训练数据集（如自动校验器或精确匹配指标），并预留一部分选择集用于验证。优化过程的使用成本主要集中在训练阶段——一次离线优化即可产出技能，部署时不会增加任何额外模型调用，经济高效。

未来方向

SkillOpt 当前针对单个领域训练单一技能。未来可拓展至技能库的构建——多个技能共享基础设施，在领域间迁移优化器侧的元技能，减少重复训练。对于开放性任务，可引入无奖赏信号或偏好驱动的验证门，让人工评判或强模型评估代替自动化评分。此外，优化好的技能也可作为蒸馏目标，将其蕴含的知识压缩回模型权重中，实现从文本状态向权重状态的转化，进一步降低推理延迟。

总结与展望

SkillOpt 为智能体技能的进化提供了一套严谨的优化范式，它证明了即便是自然语言构成的 “外部状态”，也能通过受控的批处理、验证和学习率调度，可靠地提升行为表现。其产出的紧凑技能文件具备可读、可迁移、零部署开销的特性，有望成为未来冻结模型适配新领域的主流方式。随着大模型应用深入企业级场景，这种 “软件 2.0 时代的技能训练器” 将在自动化工作流、持续学习方法论中扮演越来越重要的角色，推动 AI 从通用语言能力向特定领域的专业智能体演进。