SkillOpt: 自进化智能体技能的执行策略

arXiv: 2605.23904v1

论文信息

标题: SkillOpt: Executive Strategy for Self-Evolving Agent Skills

作者: Yifan Yang, Ziyang Gong, Weiquan Huang, et al.

发布日期: 2026-05-22

arXiv ID: 2605.23904v1

PDF 链接: 下载 PDF

背景与动机:当智能体的“技能”不再是静态提示

大型语言模型(LLM)正快速从单轮对话走向复杂任务执行,成为能够调用工具、访问文件、进行多步推理的智能体。然而,当前为这些智能体编写“技能”的方式依然原始:要么人工手写,要么通过一次性生成,或者进行缺乏控制的自我迭代修订。这些方法如同没有优化器的神经网络——既无法保证稳定改进,也无法像训练模型权重那样,利用反馈信号系统性地提升技能质量。

论文《SkillOpt: Executive Strategy for Self-Evolving Agent Skills》直指这一痛点。作者指出,如果我们将技能视为智能体适应新领域的核心接口,那么它就应该像模型权重一样,被当作一个可训练的外部状态。这一思想将技能优化从“提示工程”的范畴,提升到了“可复现训练过程”的高度。

SkillOpt 正是为此而生——一个系统化、可控的文本空间优化器,专为智能体技能的自我进化设计。它的目标不是生成一次性的提示,而是通过深度学习式的训练循环,产出一个紧凑、可审计、可迁移的技能文件(best_skill.md),让冻结参数的 LLM 可以通过外部文本进行领域适配。

核心方法:将技能文档作为可训练状态

SkillOpt 的核心类比是深度学习训练过程,但将优化对象从浮点数权重替换为自然语言文档。整个优化循环包含以下几个关键组件:

前向执行与证据收集 在每一步优化中,冻结的智能体模型使用当前技能执行一批任务(回滚批次),并记录轨迹和评分。这些轨迹数据构成了“证据”,类似于训练中的小批量数据:批次太小则噪声高,批次太大则更新缓慢。

反向编辑:小批次反思与结构化编辑 一个单独的优化器模型(通常更强)接收轨迹数据,将失败和成功案例分别划分为反思小批次。与单条轨迹的轶事式修补不同,小批次反思能揭示可复现的程序性错误,比如“总是搜索了错误的数据源”或“忘记验证工具的输出”。优化器从失败中提出修正性规则,从成功中提取值得保留的模式,并输出结构化的增/删/替换编辑指令。

文本学习率与有界更新 SkillOpt 引入了模仿学习率的概念:编辑预算 LtL_t(每个步骤最多允许的技能编辑次数)。优化器在汇总所有编辑后,按预期效用排序,只保留前 LtL_t 个编辑。这防止了技能文档的无界重写,保留了过去有效的规则,避免了过度拟合局部失败。预算可以按常量、线性、余弦等方案衰减,实现从粗调到细调的自然过渡。

验证门与拒绝编辑缓冲 每产生一个候选技能,都必须通过预留的选择集(DselD_{sel})验证。只有当严格提高了选择集分数时,候选技能才会被接受,并可能成为新的最优技能。这确保了优化方向始终指向提升泛化性能,而非自说自话。被拒绝的编辑和观察到的失败模式被记录在缓冲区中,作为后续优化步骤的负面反馈,避免重复犯错。

周期级慢更新与元技能 仅靠逐步的局部更新,难以捕捉跨周期的长期规律。SkillOpt 在每个 epoch 结束时,会对比上一 epoch 技能与当前技能在相同任务上的表现,提炼出纵向指导(慢更新),并写入技能文档中受保护的区域。同时,优化器侧还会维护一个“元技能”,总结哪种编辑模式有效、哪种无效,从而指导未来优化器的反思和排序。这种元技能只存在于训练侧,不增加部署时的推理成本。

整个优化过程结束后,导出的产物就是一个仅几百到两千 token 的简洁技能文件,智能体和执行环境完全不变,却具备了在目标领域大幅提升表现的能力。

创新点:用训练式控制重塑技能进化

SkillOpt 并非简单的提示优化器,它的贡献在于构建了一套完整的“文本优化框架”:

  1. 将技能视为可训练的外部状态:分离执行模型与优化模型,用深度学习中的批处理、验证、学习率、动量等概念武装技能更新过程。
  2. 可控性与可审计性:有界编辑、验证门限和拒绝反馈确保技能进化不会失控,最终产物是可读的、紧凑的文本,便于人工检查。
  3. 工具无关的架构:通过轻量适配器接口,SkillOpt 可在直接对话、Codex 沙盒、Claude Code 等不同执行环境中工作,产出相同格式的技能文件。
  4. 跨模型、跨环境、跨任务的迁移能力:一个优化好的技能可以直接部署到更小模型或不同工具链上,甚至迁移到相邻基准,取得正向增益,证明了其编码的程序性知识具有普遍性。

实验结果:52 个测试单元全面领先

论文在 6 个基准(覆盖问答、电子表格、文档、数学、具身决策)、7 个目标模型(从 GPT-5.5 到 Qwen-4B 小模型)和 3 种执行模式下进行了系统评估,共计 52 个(模型, 基准, 模式)单元。在所有单元中,SkillOpt 都是最优或并列最优,显著优于无技能、人类手写技能、一次性 LLM 生成技能、Trace2Skill(轨迹蒸馏)、TextGrad(文本梯度)、GEPA(帕累托进化提示)和 EvoSkill(技能文件夹进化)等基线。

在 GPT-5.5 直接对话模式下,平均分从 58.8(无技能)提升至 82.3,绝对增益 +23.5+23.5 个百分点,比每个单元格最强的基线平均高出 +5.4+5.4 个百分点。对于过程性要求高的任务提升尤为显著,例如电子表格操作从 41.8 分跃升至 80.7 分,办公文档问答从 33.1 分升至 72.1 分。在工具辅助环境中(Codex/Claude Code),SkillOpt 同样大幅领先,在电子表格任务上 Codex 模式下将无技能的 27.5 分推高至 85.0 分。

迁移实验进一步彰显了技能产物的可复用性:在 GPT-5.4 上训练的电子表格技能,直接用于 GPT-5.4-nano 时仍带来 +3.0+3.0 分的增益;Codex 环境下训练的电子表格技能迁移到 Claude Code,带来了 +59.7+59.7 分的惊人提升;数学技能从 OlympiadBench 迁移到 Omni-MATH,三种模型规模均保持正向迁移。这些结果表明,优化出的技能编码了超越具体模型和工具的过程性知识,真正成为了可部署的领域适配构件。

消融实验则确认了有界学习率、拒绝缓冲、慢更新等组件对性能的支撑作用,尤其是移除慢更新和元技能后,电子表格基准的成绩骤降 22.5 个百分点,凸显了纵向巩固的重要性。

实践应用建议

SkillOpt 的思想为智能体技能的自动化生产开辟了实践路径:

  • 在量化交易领域:可以将交易策略的规则、风险控制流程、数据获取协议等封装为可训练技能。利用历史回测数据作为反馈,SkillOpt 能迭代提炼出适配特定市场环境的操作手册,并在不同模型(如 GPT‑5.5 与本地小模型)间复用,降低过度拟合风险。
  • 在人工智能系统内部:对于需要长期维护的对话 AI 或知识库问答系统,可将领域特定的回答规范、查证步骤、多源融合策略作为技能进行优化。SkillOpt 的验证门和迁移能力能确保技能简洁有效,且能随着术语库或政策变化进行周期性更新,而无需重新微调模型。
  • 在多工具编排场景:企业内部常需将多个内部 API 和软件组合为自动化流程。通过 SkillOpt 训练一个技能文件,描述工具调用顺序、错误处理逻辑和输出格式,即可让同一 LLM 在不同执行环境(如 Codex、Claude Code)中高效运作,避免为每个环境手工编写提示。

实施时,需准备评分明确的训练数据集(如自动校验器或精确匹配指标),并预留一部分选择集用于验证。优化过程的使用成本主要集中在训练阶段——一次离线优化即可产出技能,部署时不会增加任何额外模型调用,经济高效。

未来方向

SkillOpt 当前针对单个领域训练单一技能。未来可拓展至技能库的构建——多个技能共享基础设施,在领域间迁移优化器侧的元技能,减少重复训练。对于开放性任务,可引入无奖赏信号或偏好驱动的验证门,让人工评判或强模型评估代替自动化评分。此外,优化好的技能也可作为蒸馏目标,将其蕴含的知识压缩回模型权重中,实现从文本状态向权重状态的转化,进一步降低推理延迟。

总结与展望

SkillOpt 为智能体技能的进化提供了一套严谨的优化范式,它证明了即便是自然语言构成的“外部状态”,也能通过受控的批处理、验证和学习率调度,可靠地提升行为表现。其产出的紧凑技能文件具备可读、可迁移、零部署开销的特性,有望成为未来冻结模型适配新领域的主流方式。随着大模型应用深入企业级场景,这种“软件 2.0 时代的技能训练器”将在自动化工作流、持续学习方法论中扮演越来越重要的角色,推动 AI 从通用语言能力向特定领域的专业智能体演进。