面向任务无关持续学习的稀疏子空间到专家共享

arXiv: 2606.07500v1

论文信息

标题: Sparse Subspace-to-Expert Sharing for Task-Agnostic Continual Learning

作者: Fatema Siddika, Md Anwar Hossen, Tanwi Mallick, et al.

发布日期: 2026-06-05

arXiv ID: 2606.07500v1

PDF 链接: 下载 PDF

背景与动机

大规模语言模型(LLM)在各类自然语言处理任务中表现出色,但在持续学习场景下,模型必须顺序学习多个新任务,同时保留先前获得的知识。这导致了著名的灾难性遗忘问题,其根源在于“可塑性-稳定性”两难:模型需要快速适应新任务(可塑性),又必须保持对旧任务的记忆(稳定性)。现有方法,无论是基于回放、正则化还是参数隔离,往往将参数统一对待,未能区分可复用的通用特征与任务专属特征。这种共享子空间困境在参数高效微调(如 LoRA)中尤为突出,因为低秩更新瓶颈会破坏顺序任务之间的优化几何,导致历史信息被覆盖。

针对上述挑战,论文《Sparse Subspace-to-Expert Sharing for Task-Agnostic Continual Learning》提出了 SETA(Mixture of Sparse Experts for Task-Agnostic Continual Learning)框架。该框架通过自适应稀疏子空间分解,将任务知识分离为专有专家(unique expert)和共享专家(shared expert),并以自适应弹性锚定和路由感知正则化保护共享知识,同时实现无需任务标识符的推理。

核心方法:稀疏子空间与专家动态拆分

SETA 围绕三个关键问题展开设计:(1)如何利用稀疏参数模式解耦新知识获取与历史表示保留;(2)如何在统一框架内自动区分共享知识与任务专有知识;(3)如何在推理时无需外部任务标签即可动态检索相关专家模块。

稀疏子空间选择

SETA 首先对预训练权重矩阵进行分块(固定子块大小 l×ll \times l),并在每个任务开始前执行一个自适应预热阶段。该阶段通过梯度贡献比例 ρ(t)\rho(t) 的变异系数动态决定预热步数,随后在每个块内计算梯度绝对值的均值作为重要性得分。为抑制层间幅值差异,得分经过层归一化;对于后续任务,还引入跨任务发散度评分,通过凸组合奖励与先前任务梯度分布不同的块。最终根据块预算 ρ\rho 选出最重要的块,且选择集中在 Value 投影矩阵(约 95% 的高梯度幅度集中于此),这源于 Softmax 饱和现象。

Split-on-Share(SoS)专家演化

当选出的稀疏子空间 Pt\mathcal{P}_t 与累积历史子空间 P1:t1\mathcal{P}_{1:t-1} 存在交集 I\mathcal{I} 时,SETA 采用 SoS 机制进行结构拆分。该过程通过两个拓扑阈值(τect\tau_{ect}τtrt\tau_{trt})过滤噪声:

  • 若重叠块数量低于 τect\tau_{ect},视为随机重合,不创建共享专家;
  • 若剩余专有块数量低于 τtrt\tau_{trt},则将其并入共享专家,避免碎片化。

通过这一过滤,交集块被指定为可塑的共享专家 EsE_s,通过权重继承快速初始化;独有块则冻结为专属专家 Eu(t1)E_u^{(t-1)};全新块作为新任务专属专家 Eu(t)E_u^{(t)}。该过程使专家数量呈次线性增长,有效控制了模型容量扩展。

灾难性遗忘的防御

遗忘防范采用双重策略:

  1. 正交子空间隔离:训练新任务时,所有历史专属专家的梯度强制置零(Lw0\frac{\partial \mathcal{L}}{\partial w} \equiv 0),保证领域专属特征不被修改。
  2. 自适应弹性锚定:对共享专家施加动态正则化惩罚。系数 λi(t)\lambda_i(t) 由两个因素决定:专家过去服务的任务数比例 ωi\omega_i 和当前权重偏移度 δi(t)\delta_i(t)(使用 tanh\tanh 函数限制在 [1,2)[1,2))。损失形式为 Lreg=iEsλi(t)Wi(t)W^i2\mathcal{L}_{\text{reg}} = \sum_{i \in \mathcal{E}_s} \lambda_i(t) \cdot \| W_i^{(t)} - \hat{W}_i \|^2

路由感知门控正则化与推理

除权重正则化外,SETA 进一步优化门控网络的路由决策,加入损失项 Lgate=iEsλiEx[σ(gθ(x))i]\mathcal{L}_{\text{gate}} = \sum_{i \in \mathcal{E}_s} \lambda_i \cdot \mathbb{E}_x[\sigma(g_\theta(x))_i],惩罚将新任务输入路由至高风险共享专家的概率。二者构成双层防御。

新任务训练前,门控网络通过权重继承保持分对数不变:将旧的专家嵌入参数复制到拆分后的共享与专属专家门控向量,打破对称性,避免冷启动错误。推理时,一个统一的线性门控网络根据输入 token 自动对所有专家输出进行软性加权,无需任务 ID,实现真正的任务无关推理。

创新点与贡献

SETA 的主要创新包括:

  • 稀疏梯度驱动的子空间专家化:首次将梯度引导的块选择与 Mixture-of-Experts 结合,实现无任务标识符的动态专家路由。
  • Split-on-Share 机制:通过拓扑过滤器区分真正的知识共享与偶然重叠,维持模型的模块化结构,且专家增长呈次线性。
  • 动态自适应弹性锚定:根据专家受累历史与当前偏移程度实时调整正则化强度,无额外超参数。
  • 路由感知双层保护:同时从门控决策和权重偏移两个层面阻止语义漂移。

实验结果分析

论文在 LLaMA-2 7B 和 Qwen3-4B 上进行六任务顺序学习评测,涵盖 C-STANCE、FOMC、MeetingBank、ScienceQA、NumGLUE、20Minuten 等多样化基准。主要结果如下:

  • 整体性能(OP):在 LLaMA-2 7B 上,SETA 的 OP 为 28.72%,超过 I-LoRA 的 27.32%;在 Qwen3-4B 上,SETA 达 43.30%,大幅领先 I-LoRA 的 38.15%,且遗忘率(FTF_T)最低(15.42%)。
  • 早期任务保持:SETA 对第一个任务 C-STANCE 的准确率随任务增多反而上升(从 57.01% 提升至 63.64%),表明其积极的后向迁移;而 EWC 和 SeqLoRA 常骤降至接近零。在 LLaMA-2 7B 上,SETA 对 FOMC 的最终保持为 26.41%,比 I-LoRA 的 8.1% 高出 18 个百分点。
  • 参数效率:训练参数仅约 6.34M 至 8.10M(不足模型总参数量 1.25%),与 I-LoRA 相当但表现更优。
  • 消融实验(附录)表明,移除路由感知门控正则化后,C-STANCE 最终准确率从 63.64% 降至 53.64%,NumGLUE 从 25.97% 降至 15.28%,验证了门控损失对保护高权重共享专家的关键作用。

层间块选择分析显示,新颖块的发现率随任务顺序递减,证实了次线性扩展的观察。

实践应用建议与未来方向

实践建议

  • 在资源受限的设备上部署持续学习 LLM:SETA 的参数效率使其适合边缘设备,但需注意共享专家不断扩张可能导致长期维护成本增加,可结合周期性合并或剪枝。
  • 任务无感推理的构建:无需任务 ID 的特性可简化生产流水线,尤其适用于对话系统或用户意图流式变化的场景。建议在预训练阶段后即引入稀疏选择和 SoS 机制,以保存早期知识的完整性。
  • 超参数设置:块预算 ρ\rho 和阈值 τect\tau_{ect}τtrt\tau_{trt} 应根据模型注意力维度校准。论文给出了原则性操作点——取专家创建通过率曲线的“肘部”,可参照此方法进行调优。

未来发展方向

  1. 更大参数规模与更长任务链:当前实验限于 7B~8B 参数,专家扩展在数千个任务下的容量饱和效应有待研究。
  2. 跨架构泛化:SETA 目前基于标准 Transformer,其对状态空间模型等新架构的适用性未知,稀疏选择模块可能需重新设计。
  3. 任务顺序敏感性:论文采用固定任务顺序,不同顺序对共享专家形成的影响尚需探索。自适应顺序或动态重组专家可能提升鲁棒性。
  4. 合并与遗忘机制:长期运行后共享专家池可能积累冗余,引入专家合并或选择性遗忘机制可提升可扩展性。

总结与展望

SETA 通过将稀疏子空间选择与动态专家拆分相融合,为持续学习提供了一种结构化、参数高效的解决方案。其核心机制——Split-on-Share、自适应弹性锚定以及路由感知正则化——协同解决了知识冲突与灾难性遗忘,在没有任务标识的情况下实现了可塑性与稳定性的优异平衡。实验证明该方法在多个领域基准上达到了领先水平,特别是在早期任务保持和后向迁移方面显著优于现有方法。

展望未来,随着 LLM 在开放世界中持续进化的需求增加,SETA 所倡导的“子空间到专家”设计范式有望成为持续学习基础架构的重要组成部分。结合智能化容量管理和跨架构适配,此类方法将进一步推动智能体实现终身学习和无损适应。