面向任务无关持续学习的稀疏子空间到专家共享

论文信息

标题: Sparse Subspace-to-Expert Sharing for Task-Agnostic Continual Learning

作者: Fatema Siddika, Md Anwar Hossen, Tanwi Mallick, et al.

发布日期: 2026-06-05

PDF 链接: 下载 PDF

背景与动机

大规模语言模型（LLM）在各类自然语言处理任务中表现出色，但在持续学习场景下，模型必须顺序学习多个新任务，同时保留先前获得的知识。这导致了著名的灾难性遗忘问题，其根源在于 “可塑性-稳定性” 两难：模型需要快速适应新任务（可塑性），又必须保持对旧任务的记忆（稳定性）。现有方法，无论是基于回放、正则化还是参数隔离，往往将参数统一对待，未能区分可复用的通用特征与任务专属特征。这种共享子空间困境在参数高效微调（如 LoRA）中尤为突出，因为低秩更新瓶颈会破坏顺序任务之间的优化几何，导致历史信息被覆盖。

针对上述挑战，论文《Sparse Subspace-to-Expert Sharing for Task-Agnostic Continual Learning》提出了 SETA（Mixture of Sparse Experts for Task-Agnostic Continual Learning）框架。该框架通过自适应稀疏子空间分解，将任务知识分离为专有专家（unique expert）和共享专家（shared expert），并以自适应弹性锚定和路由感知正则化保护共享知识，同时实现无需任务标识符的推理。

核心方法：稀疏子空间与专家动态拆分

SETA 围绕三个关键问题展开设计：（1）如何利用稀疏参数模式解耦新知识获取与历史表示保留；（2）如何在统一框架内自动区分共享知识与任务专有知识；（3）如何在推理时无需外部任务标签即可动态检索相关专家模块。

稀疏子空间选择

SETA 首先对预训练权重矩阵进行分块（固定子块大小 $l \times l$ ），并在每个任务开始前执行一个自适应预热阶段。该阶段通过梯度贡献比例 $\rho(t)$ 的变异系数动态决定预热步数，随后在每个块内计算梯度绝对值的均值作为重要性得分。为抑制层间幅值差异，得分经过层归一化；对于后续任务，还引入跨任务发散度评分，通过凸组合奖励与先前任务梯度分布不同的块。最终根据块预算 $\rho$ 选出最重要的块，且选择集中在 Value 投影矩阵（约 95% 的高梯度幅度集中于此），这源于 Softmax 饱和现象。

Split-on-Share（SoS）专家演化

当选出的稀疏子空间 $\mathcal{P}_t$ 与累积历史子空间 $\mathcal{P}_{1:t-1}$ 存在交集 $\mathcal{I}$ 时，SETA 采用 SoS 机制进行结构拆分。该过程通过两个拓扑阈值（ $\tau_{ect}$ 和 $\tau_{trt}$ ）过滤噪声：

若重叠块数量低于 $\tau_{ect}$ ，视为随机重合，不创建共享专家；
若剩余专有块数量低于 $\tau_{trt}$ ，则将其并入共享专家，避免碎片化。

通过这一过滤，交集块被指定为可塑的共享专家 $E_s$ ，通过权重继承快速初始化；独有块则冻结为专属专家 $E_u^{(t-1)}$ ；全新块作为新任务专属专家 $E_u^{(t)}$ 。该过程使专家数量呈次线性增长，有效控制了模型容量扩展。

灾难性遗忘的防御

遗忘防范采用双重策略：

正交子空间隔离：训练新任务时，所有历史专属专家的梯度强制置零（ $\frac{\partial \mathcal{L}}{\partial w} \equiv 0$ ），保证领域专属特征不被修改。
自适应弹性锚定：对共享专家施加动态正则化惩罚。系数 $\lambda_i(t)$ 由两个因素决定：专家过去服务的任务数比例 $\omega_i$ 和当前权重偏移度 $\delta_i(t)$ （使用 $\tanh$ 函数限制在 $[1,2)$ ）。损失形式为 $\mathcal{L}_{\text{reg}} = \sum_{i \in \mathcal{E}_s} \lambda_i(t) \cdot \| W_i^{(t)} - \hat{W}_i \|^2$ 。

路由感知门控正则化与推理

除权重正则化外，SETA 进一步优化门控网络的路由决策，加入损失项 $\mathcal{L}_{\text{gate}} = \sum_{i \in \mathcal{E}_s} \lambda_i \cdot \mathbb{E}_x[\sigma(g_\theta(x))_i]$ ，惩罚将新任务输入路由至高风险共享专家的概率。二者构成双层防御。

新任务训练前，门控网络通过权重继承保持分对数不变：将旧的专家嵌入参数复制到拆分后的共享与专属专家门控向量，打破对称性，避免冷启动错误。推理时，一个统一的线性门控网络根据输入 token 自动对所有专家输出进行软性加权，无需任务 ID，实现真正的任务无关推理。

创新点与贡献

SETA 的主要创新包括：

稀疏梯度驱动的子空间专家化：首次将梯度引导的块选择与 Mixture-of-Experts 结合，实现无任务标识符的动态专家路由。
Split-on-Share 机制：通过拓扑过滤器区分真正的知识共享与偶然重叠，维持模型的模块化结构，且专家增长呈次线性。
动态自适应弹性锚定：根据专家受累历史与当前偏移程度实时调整正则化强度，无额外超参数。
路由感知双层保护：同时从门控决策和权重偏移两个层面阻止语义漂移。

实验结果分析

论文在 LLaMA-2 7B 和 Qwen3-4B 上进行六任务顺序学习评测，涵盖 C-STANCE、FOMC、MeetingBank、ScienceQA、NumGLUE、20Minuten 等多样化基准。主要结果如下：

整体性能（OP）：在 LLaMA-2 7B 上，SETA 的 OP 为 28.72%，超过 I-LoRA 的 27.32%；在 Qwen3-4B 上，SETA 达 43.30%，大幅领先 I-LoRA 的 38.15%，且遗忘率（ $F_T$ ）最低（15.42%）。
早期任务保持：SETA 对第一个任务 C-STANCE 的准确率随任务增多反而上升（从 57.01% 提升至 63.64%），表明其积极的后向迁移；而 EWC 和 SeqLoRA 常骤降至接近零。在 LLaMA-2 7B 上，SETA 对 FOMC 的最终保持为 26.41%，比 I-LoRA 的 8.1% 高出 18 个百分点。
参数效率：训练参数仅约 6.34M 至 8.10M（不足模型总参数量 1.25%），与 I-LoRA 相当但表现更优。
消融实验（附录）表明，移除路由感知门控正则化后，C-STANCE 最终准确率从 63.64% 降至 53.64%，NumGLUE 从 25.97% 降至 15.28%，验证了门控损失对保护高权重共享专家的关键作用。

层间块选择分析显示，新颖块的发现率随任务顺序递减，证实了次线性扩展的观察。

实践应用建议与未来方向

实践建议

在资源受限的设备上部署持续学习 LLM：SETA 的参数效率使其适合边缘设备，但需注意共享专家不断扩张可能导致长期维护成本增加，可结合周期性合并或剪枝。
任务无感推理的构建：无需任务 ID 的特性可简化生产流水线，尤其适用于对话系统或用户意图流式变化的场景。建议在预训练阶段后即引入稀疏选择和 SoS 机制，以保存早期知识的完整性。
超参数设置：块预算 $\rho$ 和阈值 $\tau_{ect}$ 、 $\tau_{trt}$ 应根据模型注意力维度校准。论文给出了原则性操作点——取专家创建通过率曲线的 “肘部”，可参照此方法进行调优。

未来发展方向

更大参数规模与更长任务链：当前实验限于 7B~8B 参数，专家扩展在数千个任务下的容量饱和效应有待研究。
跨架构泛化：SETA 目前基于标准 Transformer，其对状态空间模型等新架构的适用性未知，稀疏选择模块可能需重新设计。
任务顺序敏感性：论文采用固定任务顺序，不同顺序对共享专家形成的影响尚需探索。自适应顺序或动态重组专家可能提升鲁棒性。
合并与遗忘机制：长期运行后共享专家池可能积累冗余，引入专家合并或选择性遗忘机制可提升可扩展性。

总结与展望

SETA 通过将稀疏子空间选择与动态专家拆分相融合，为持续学习提供了一种结构化、参数高效的解决方案。其核心机制——Split-on-Share、自适应弹性锚定以及路由感知正则化——协同解决了知识冲突与灾难性遗忘，在没有任务标识的情况下实现了可塑性与稳定性的优异平衡。实验证明该方法在多个领域基准上达到了领先水平，特别是在早期任务保持和后向迁移方面显著优于现有方法。

展望未来，随着 LLM 在开放世界中持续进化的需求增加，SETA 所倡导的 “子空间到专家” 设计范式有望成为持续学习基础架构的重要组成部分。结合智能化容量管理和跨架构适配，此类方法将进一步推动智能体实现终身学习和无损适应。