王春丽;高玉鑫;李金絮;张珈豪;王晨名
WANG Chunli, GAO Yuxin, LI Jinxu, ZHANG Jiahao, WANG Chenming
摘要: 听力正常者在多说话人场景中可专注于某一特定话者声源,听觉注意力检测(auditory attention detection, AAD)通过分析正常听者脑电信号(electroencephalogram, EEG) 解码其关注话者语音特征,建模AAD选择机制。现有AAD方法多局限于单一时域和频域分析,忽略了时频域间的内在关系及空间域信息,导致解码精度受限。鉴于图神经网络(Graph Neural Network, GNN)在处理空间非欧几里得数据方面的卓越能力,本研究提出了一种高速且高效的AAD模型。该模型由时空注意分支和频率注意分支组成,前者通过Transformer捕捉全局上下文信息, GNN建模局部空间拓扑结构,后者则通过残差卷积网络提取多频带EEG频谱特征,两分支融合后,综合考虑时间、空间和频率特征,最终输出AAD分类结果。在公开KUL数据集上进行算法验证,结果表明,该方法在0.1s和1s决策窗口下解码精度分别达88.75%和95.31%,较基线模型显著提升14.45%和14.51%, 5s决策窗口下实现了94.88%解码精度,进一步的消融实验也充分验证了该模型的有效性和必要性。