1、2023 03 10计算机应用,Journal of Computer Applications2023,43(3):700-705ISSN 10019081CODEN JYIIDUhttp:/基于图神经网络和注意力的双模态情感识别方法李路宝1,2*,陈田1,2,任福继3,罗蓓蓓1,2(1.合肥工业大学 计算机与信息学院,合肥 230601;2.情感计算与先进智能机器安徽省重点实验室(合肥工业大学),合肥 230601;3.德岛大学 理工学部,德岛 7708506,日本)(通信作者电子邮箱)摘要:针对生理信号情感识别问题,提出一种基于图神经网络(GNN)和注意力的双模态情感识别方法。首先,使用
2、GNN对脑电(EEG)信号进行分类;然后,使用基于注意力的双向长短期记忆(Bi-LSTM)网络对心电(ECG)信号进行分类;最后,通过Dempster-Shafer证据理论融合EGG和ECG分类结果,从而提高情感识别任务的综合性能。为验证所提方法的有效性,邀请20名受试者参与情感激发实验,并收集了受试者的EGG、ECG信号。实验结果表明,所提方法的二分类准确率在valence维度和arousal维度分别为91.82%和88.24%,相较于单模态EEG方法分别提高2.65%和0.40%,相较于单模态ECG方法分别提高19.79%和24.90%。可见,所提方法能够有效地提高情感识别的准确率,为医疗
3、诊断等领域提供决策支持。关键词:情感识别;多模态;脑电;心电;图神经网络;注意力中图分类号:TP391 文献标志码:ABimodal emotion recognition method based on graph neural network and attentionLI Lubao1,2*,CHEN Tian1,2,REN Fuji3,LUO Beibei1,2(1.School of Computer Science and Information Engineering,Hefei University of Technology,Hefei Anhui 230601,China;
4、2.Anhui Province Key Laboratory of Affective Computing and Advanced Intelligent Machine(Hefei University of Technology),Hefei Anhui 230601,China;3.Faculty of Engineering,Tokushima University,Tokushima 7708506,Japan)Abstract:Considering the issues of physiological signal emotion recognition,a bimodal
5、 emotion recognition method based on Graph Neural Network(GNN)and attention was proposed.Firstly,the GNN was used to classify ElectroEncephaloGram(EEG)signals.Secondly,an attention-based Bi-directional Long Short-Term Memory(Bi-LSTM)network was used to classify ElectroCardioGram(ECG)signals.Finally,
6、the results of EEG and ECG classification were fused by Dempster-Shafer evidence theory,thus improving the comprehensive performance of the emotion recognition task.To verify the effectiveness of the proposed method,20 subjects were invited to participate in the emotion elicitation experiment,and th
7、e EEG signals and ECG signals of the subjects were collected.Experimental results show that the binary classification accuracies of the proposed method are 91.82%and 88.24%in the valence dimension and arousal dimension,respectively,which are 2.65%and 0.40%higher than those of the single-modal EEG me
8、thod respectively,and are 19.79%and 24.90%higher than those of the single-modal ECG method respectively.It can be seen that the proposed method can effectively improve the accuracy of emotion recognition and provide decision support for medical diagnosis and other fields.Key words:emotion recognitio
9、n;multimodal;ElectroEncephaloGram(EEG);ElectroCardioGram(ECG);Graph Neural Network(GNN);attention0 引言 近年来,随着人机交互技术的发展和人工智能的兴起,情感计算逐渐成为人工智能领域的研究热点。在高级别人机交互过程中,人们希望赋予机器更多的情感,而情感识别是实现高级人机交互的关键技术。另外,如抑郁症、自闭症等精神疾病1-2都与情感有一定程度的关联。所以,对于情感识别的研究有很多重要的现实意义。生理信号和非生理信号在情感识别中应用广泛。因为人类无法主观控制生理信号的变化,无法隐藏自己的外在行为和举止
10、,从而表现出更高的可靠性,所以生理信号更适用于情感识别。而大脑是中枢神经系统的主要组成部分,与情感的产生密切相关,大脑皮层的不同区域对情感的贡献程度不同3。因此如何有效地利用脑电(ElectroEncephaloGram,EEG)信号包含的情感信息,是本文需要解决的问题。虽然EEG信号可以更真实、准确地反映人的情感信息,但是脑电信号是非稳态随机信号,不同人的 EEG 信号存在较大的差异,同一个人的 EEG 信号在不同时间也存在较大文章编号:1001-9081(2023)03-0700-06DOI:10.11772/j.issn.1001-9081.2022020216收稿日期:20220228
11、;修回日期:20220428;录用日期:20220429。基金项目:国家自然科学基金资助项目(61432004,62174048,U1613217)。作者简介:李路宝(1992),男,安徽芜湖人,硕士研究生,CCF会员,主要研究方向:情感计算、人工智能;陈田(1974),女,安徽合肥人,副教授,博士,CCF高级会员,主要研究方向:情感计算、人工智能;任福继(1959),男,四川南充人,教授,博士,主要研究方向:情感计算、人工智能;罗蓓蓓(1999),女,安徽合肥人,硕士研究生,主要研究方向:情感计算。第 3 期李路宝等:基于图神经网络和注意力的双模态情感识别方法的差异,因此利用单一模态信号的模
12、型仍然很难应用于实际生活。不同的生理信号可以反映情感的不同方面,为了获得更好的情感识别率和更稳定的模型,科研人员探索了将EEG信 号 与 其 他 生 理 信 号 融 合 的 方 法4,如 心 电(ElectroCardioGram,ECG)、眼电(ElectroOculoGram,EOG)、皮肤电(Galvanic Skin Response,GSR)等。而 ECG 作为常用生理信号之一,包含了丰富的情感信息,也是情感计算领域研究的热点。EEG 和 ECG 都包含了丰富的情感信息,从不同维度反映了人的情感状态,综合利用这些信息可以准确地检测人的当前状态。Koelstra等5利用音乐视频片段激发
13、参与者的情感,收集了32名参与者的EEG、外周生理信号和面部表情等信息,然后对EEG和外周生理信号分别构建分类器,融合每个分类器的结果获得最终的输出。实验结果表明,基于多模态的情感识别准确率比单模态的情感识别更高。但是模型的识别率仍然难以满足实际应用需要,提高情感模型识别的准确率仍然充满挑战。针对以上问题,本文提出一种基于图神经网络(Graph Neural Network,GNN)和注意力的多模态情感识别方法。本文的主要工作包括:1)受神经科学启发,利用EEG通道的空间拓扑关系构建 GNN,充分挖掘 EEG 信息与情感之间的关联,提升脑电情感的识别率;2)设计了一种多模态融合方法,利用 EE
14、G 和 ECG 信号的互补性,同时在模型中融入注意力机制,在一定程度上提升了情感识别的准确率。1 相关工作 自情感计算理论提出以来,相关的理论都得到了快速发展。神经科学研究表明,大脑结构功能与情感密切相关6-7,情感类别与大脑皮层和皮层下的神经系统活动有特殊的关系8,因此可以将EEG信号应用于情感识别。而EEG信号是放置在头皮上的多个电极记录的大脑皮层的电势变化,原始信号无法直接进行情感识别,因此需要对采集的原始 EEG信号进行相应处理,然后根据相关领域的知识设计并提取特征,并根据不同的算法构建模型对这些特征进行分类。目前,使用生理信号中不同的特征和分类方法进行情感识别已经取得了很多成果。Pe
15、reira等9从 EEG 信号中提取高阶交叉熵(Higher Order Crossing,HOC),利用支持向量机(Support Vector Machine,SVM)作为分类器,研究不同情绪刺激时间对情感识别率的影响。Krisnandhika等10使用相对小波能量作为特征值,利用改进后的神经网络作为分类器,取得了较好的识别效果。Chen等11使用Lempel-Ziv复杂度、小波细节系数、协整关系度以及经过经验模态分解之后的近似熵作为特征值,然后使用LibSVM分类器进行分类,最后使用模糊积分融合每个通道的分类结果,对于 arousal 和 valence的平均识别率分别为74.88%、8
16、2.63%。大脑中多个功能器官或区域共同发挥作用,而 GNN 可以很好地表示这种拓扑结构之间的关系,更好地模拟大脑的机制,为探索 EGG 情感识别提供一种潜在的途径。Song等12将图卷积神经网络用于 EGG 情感识别,提出了动态图卷 积 神 经 网 络(Dynamical Graph Convolutional Neural Network,DGCNN),通过训练神经网络来动态学习不同EGG通道之间的内在关系,模型在 SEED 数据集(SJTU Emotion EEG Dataset)上取得了较好的识别效果。Zhong等13提出用于 EGG 情 感 识 别 的 正 则 图 神 经 网 络(Regularized Graph Neural Network,RGNN),RGNN 考虑了不同大脑区域之间的生物拓扑结构,以捕获不同 EEG 通道之间的局部和全局关系;同时提出了两种正则化方法节点域对抗训练和情感感知分布学习,提高了模型的鲁棒性。人类通过快速扫描全局图像,获得需要重点关注的目标区域,然后对这一区域投入更多注意力以获得关注目标更多的细节信息。深度学习中的注意力机制与人类的视觉注意力