思维原子：基于微状态的全脑电图通用表征学习

论文信息

标题: Atoms of Thought: Universal EEG Representation Learning with Microstates

作者: Xinyang Tian, Ruitao Liu, Ziyi Ye, et al.

发布日期: 2026-05-19

arXiv ID: 2605.20182v1

PDF 链接: 下载 PDF

论文研究背景与动机

脑电图（EEG）一直以来是认知神经科学、临床诊断和脑机接口（BCI）领域的重要工具。然而，EEG 信号本质上是非平稳、非线性的多变量时间序列，传统的时间域和频率域表示方法面临两大困境。一方面，这些特征极易受眼电伪迹、肌电噪声和环境干扰的影响，且普遍存在任务相关性和个体差异，使得模型在跨任务、跨个体场景下的泛化能力严重不足；另一方面，时间域信号的低信噪比以及频率域分析中固定窗长造成的时间分辨率损失，导致提取出的特征难以捕捉到毫秒级的瞬时脑活动动态。

这些局限促使研究者重新思考一个问题：能否找到一种更贴近大脑底层工作机制、同时具备较强通用性和可解释性的 EEG 表示方式？正是在这一背景下，论文提出将 EEG 微状态（microstates）作为一种全新的通用表示方法。微状态是指在 60-120 毫秒内保持准稳态的头皮电势分布模式，被认为是构成认知活动的基本 “原子”。这种方式不仅具有明确的神经生理意义，还能够将复杂的连续信号转化为离散状态序列，为后续的深度学习建模提供结构化输入。

核心方法解析：从连续信号到离散微状态

论文的整体流程拆分为两个阶段，即通用的微状态分词器（tokenizer）的训练，以及在下游任务中利用微状态序列进行建模与分类。

首先，分词器训练阶段采用了来自人类睡眠计划（HSP）的大规模睡眠脑电数据集，规模超过 20,000 人。由于目标在于建立能够跨个体、跨任务迁移的通用表示，作者选择了在所有样本中均存在的 F3、F4、C3、C4、O1、O2 六个脑电通道，通过带通滤波（1-40Hz）剔除无关频段、重采样至 100Hz 后，提取全局场功率（GFP）的局部峰值作为聚类数据点。GFP 峰值具有最高的信噪比，是微状态分析中的经典选择。

聚类算法采用流式 k-means，通过对数据进行分批更新聚类中心，避免一次性加载超大尺度数据集造成的内存瓶颈。最终设定聚类数 $k = 1000$ ，得到一个将任意 $N$ 通道、长度为 $T$ 的脑电信号映射为长度 $f_s T$ 的离散状态序列的通用分词器。换言之，任意时刻的脑电瞬时场分布都被分配到 1000 种典型地形图模式之一，实现了信号的粗粒化和降维。

其次，在下游任务建模阶段，论文针对睡眠分期、情绪识别和运动想象分类三项任务，分别使用 CNN+LSTM、Sleep Transformer、ResNet 等不同模型架构，检验微状态表示的效果。微状态序列会先通过嵌入层映射为高维连续向量，再输入模型主干进行特征提取和时间依赖建模。

创新点与技术贡献

本文最突出的创新点在于首次将 EEG 微状态从传统认知神经科学的分析工具提升为深度学习时代的通用表示学习方法。与多数仅依赖时间或频率特征的工作不同，该方案利用了微状态天然的抗噪性和跨个体一致性。正如实验所显示的，在相同睡眠阶段下，不同个体最常见微状态的分布高度相似，这表明聚类结果成功捕捉了跨个体的共性脑活动模式，有效抑制了个体特异性的干扰。

另一重要创新在于统一的预训练-下游适配范式。分词器在单一睡眠数据集上训练，无需在情绪识别或运动想象任务上重新训练，便可直接应用于不同任务和模型结构，具备极强的通用性和迁移能力。这一设计大幅降低了下游任务对大量标注数据的依赖，有望缓解脑电分析中常见的数据稀缺和跨任务泛化难题。

此外，论文深入探讨了微状态与认知功能之间的关联。例如，清醒（W）和快速眼动睡眠（R）阶段共享大量低幅值微状态（如 419、421），而深睡（N3）阶段则更多出现高幅值的微状态（如 378、452），这些现象与神经生理学中关于不同睡眠阶段脑波振幅特征的认知高度一致，表明微状态在可解释性方面的独特优势。

实验结果分析

论文围绕三个代表性任务进行了详细的对比实验，评估指标为分类准确率和 Cohen’s Kappa 系数。

在睡眠分期任务中，微状态表示在三种不同模型结构（CNN+LSTM、Sleep Transformer、Sleep Net Zero）下均显著优于时间域和频率域表示。例如，在 Sleep Transformer 上，微状态的准确率和 Kappa 分别达到 0.81 和 0.736，相比原始 EEG 信号和 STFT 频率特征均有明显提升。

在基于 SEED 数据集的情绪识别任务中，微状态同样获得最高的分类准确率（0.862）和 Kappa（0.793）。值得注意的是，微状态仅基于 6 通道信息的效果甚至优于使用全部 62 通道的频率或时间特征，进一步证明了其提取关键脑活动模式的能力。

在运动想象分类上，微状态带来的提升尤为显著。相比原始 EEG 0.362 的准确率和 0.149 的 Kappa，微状态将准确率提升到 0.437，Kappa 提升至 0.250。虽然绝对值仍有较大优化空间，但这说明了微状态在削弱噪声、增强任务相关信号方面的优势。

数据可扩展性实验同样值得关注。随着训练样本数量的增加，微状态表示在准确率和 Kappa 上的增益幅度明显高于其他两种表示。这意味着在更大规模数据场景下，微状态拥有更广阔的性能提升空间。

实践应用建议与未来发展

对于脑机接口与临床研究实践者而言，这项研究提供了可操作性强且极具潜力的思路。首先，将睡眠期间学到的微状态分词器直接用于清醒状态下的任务，可以降低对记录条件的严苛要求，尤其适用于可穿戴设备或居家监测等数据采集成本较高的场景。其次，微状态序列天然适合作为序列建模（如 Transformer）的输入，设计统一的预训练模型架构有望进一步释放表示学习的潜能。

在应用落地层面，微状态表示在癫痫检测、阿尔茨海默症早期筛查、情绪监控等方向上具有明显优势，因为这类疾病已被证实会影响特定微状态的持续时间或切换模式，其神经生理基础为深度学习模型的判断提供了有力支撑。

未来研究可沿着多个方向深入。第一，尝试在更多样的数据集（如不同认知任务、不同年龄群体）上验证分词器的普适性，或针对更多脑电通道进行扩展。第二，将微状态离散表示与语言模型中的向量量化思路结合，构建真正意义上的 EEG 基础模型。第三，探索微状态在自监督学习框架下的应用，通过预测状态切换序列、重建原始信号等代理任务来提升表示的鲁棒性。

总结与展望

该论文成功构建了一种兼具神经生理基础和通用计算优势的 EEG 表示学习范式，将微观时间尺度的脑活动 “原子”——微状态重塑为可跨任务、跨模型迁移的离散化表示。实验证据充分表明，该方法在噪声鲁棒性、个体泛化能力和可解释性等维度上都显著优于传统方法，并展现出随着数据规模增长持续提升性能的潜力。这一工作不仅为脑电分析中的深度学习应用开辟了新路径，也为在认知机制解读和临床辅助诊断之间搭建了桥梁。长远来看，微状态作为基础表示单元，有望催生新一代的 EEG 预训练模型，推动神经信息学走向更加通用、智能和可解释的阶段。