基于样本选择的跨被试脑力负荷识别

资源描述

1、投稿网址：年第卷第期，（）：科学技术与工程引用格式：曲洪权，王飞月，庞丽萍，等基于样本选择的跨被试脑力负荷识别科学技术与工程，（）：.，（）：.医药、卫生基于样本选择的跨被试脑力负荷识别曲洪权，王飞月，庞丽萍，陈丽莉，刘晓花（.北方工业大学信息学院，北京；.北京航空航天大学航空科学与工程学院，北京；.华北石油通信有限公司万庄通信总站，廊坊；.中国石油管道局工程有限公司国际事业部，廊坊）摘要人体的脑力负荷状态与人机操作工作时的工作效率、人力资源分配以及事故的发生等息息相关，因此研究操作人员的脑力负荷状态具有重要意义。为了解决现有脑力负荷识别方法由于训练集中样本数量过

2、少导致分类效果较差的问题，提出了一种基于样本选择的跨被试脑力负荷识别方法。首先，将其他被试的脑电数据作为训练集，参考目标被试的少量历史数据对训练集中的特征数据进行样本选择，实现减少样本数量的同时减少训练集和测试集之间的域差异；其次，再通过主成分分析对样本选择后的自适应训练集和目标被试测试集特征进行特征降维；最后，用自适应训练集主成分建立支持向量机分类模型识别测试集样本的脑力负荷状态。结果表明，该方法可以在提高分类效率的同时提高分类精度，实现快速、准确的脑力负荷状态识别。关键词样本选择；主成分分析；支持向量机；脑力负荷；脑电中图法分类号.；文献标志码收稿日期：；修订日期：基金项目：辽宁省兴辽

3、英才计划（）第一作者：曲洪权（），男，汉族，黑龙江青冈人，博士，教授。研究方向：数据科学。：。通信作者：庞丽萍（），女，汉族，黑龙江海林人，博士，教授。研究方向：人机与环境工程。：。，（.，；.，；.，；.，），（），；脑力负荷通常表示为操作人员在单位时间内的脑活动量、心理压力或者信息处理能力。在人机操作工作中，操作人员的脑力负荷过高会导致操作灵活性降低，决策失误甚至发生人因事故，而脑力负荷过低则会导致人力资源的浪费以及作业绩效的下降。因此准确评估操作人员的脑力负荷状态对于保护操作人员安全和提高作业效率等具有重要意义。投稿网址：常见的脑力负荷评价方法主要有两种：一种是以客观指标对脑力负荷进行评

4、价，比如工作表现结果（工作完成时间、工作失误率等）或者操作人员的生理指标（心跳速度、脑电图等），另一种是以被试主观评价作为脑力负荷等级的评估结果。随着近年来软硬件的发展，由于采集生理数据的准确性及便捷性，基于脑电信号来识别脑力负荷状态成为近年来的研究热点，。诸多研究表明，在不同的脑力负荷状态下，脑电信号在、和这个频段的功率谱变化敏感。因此，近年来许多脑力负荷研究从脑电信号的各个频段中提取特征进行脑力负荷识别，并且随着机器学习的迅猛发展，越来越多的人尝试运用机器学习算法对脑力负荷进行识别。等基于各频段的功率谱密度特征，使用线性判别分析对无人机操控员的脑力负荷分类。郭孜政等将各频段的频谱值作为

5、输入特征，结合支持向量机模型构建了驾驶员脑力负荷识别模型。等将频段功率和小波熵使用随机森林进行特征选择，使用支持向量机建立模型识别脑力负荷状态。对于一个用于测试的新被试，常用的方法对特定被试训练分类器需要对该被试采集多组脑电数据来建立一个综合的训练集，但在实际情况中，新被试往往只有少量的历史数据，这种情况下训练得到的分类器会由于训练集中数据数量过少导致分类效果较差。因此，跨被试的脑电数据识别逐渐成为近几年的研究热点，利用其他被试的历史脑电数据训练分类器来测试新被试的状态。由于每个被试之间具有个体差异，被试之间的脑电数据分布往往具有很大的差异，因此需要使用迁移学习的方法来减少训练被试与测试被试数

6、据之间的分布差异。等使用深度域自适应网络，通过深度神经网络消除不同被试数据之间的域移位，实现基于脑电信号的跨被试运动想象任务的分类。等提出一种少标记对抗性域自适应方法，应用于面向深度学习的模型，减少不同被试数据集之间的分布差异，实现基于脑电信号的跨被试情绪识别。等结合多尺度残差网络和元迁移学习策略减少不同被试个体差异问题，实现基于脑电信号的跨被试情绪识别。然而针对脑力负荷识别任务，目前还没有研究，且以上方法均基于深度学习网络，模型复杂度高，需要大量训练数据做支撑。故从样本选择的角度出发，实现不同被试数据之间的域自适应，减少训练数据的情况下使用低复杂度分类模型实现跨被试的脑力负荷识别。为此，现针

7、对视觉和操作类任务，提出一种基于样本选择的跨被试脑力负荷识别方法，参考目标被试少量有标签的历史数据，利用其他被试的脑电数据进行迁移学习，以估计目标被试的脑力负荷状态。该方法分为个步骤实现：对各个被试收集到的脑电信号进行转参考和滤波；对得到的脑电信号提取功率谱密度特征；将训练集中所有被试的特征数据参考目标被试少量有标签的历史样本进行样本选择并形成新的自适应源域训练集；对自适应源域训练集与目标被试测试集数据进行主成分分析；由自适应源域训练集主成分训练分类器并对测试集数据进行分类。该方法在使用目标被试少量有标签的历史数据的情况下，对训练集中被试样本进行自适应样本筛选以减少二者的分布差异，从而在提高

8、分类效率的同时获得更好的识别效果。基于样本选择的跨被试脑力负荷识别基于样本选择的脑力负荷识别方法利用训练集中所有被试的样本数据，将目标被试的少量有标签的历史样本数据作为验证集，参考验证集中的样本分布，建立一个针对目标被试的个性化模型。需要解决的问题是，给出一组目标被试待识别的脑电样本数据，利用训练集中每个被试的样本数据以及验证集中的样本数据来估计目标被试待识别脑电样本中每个脑电样本的脑力负荷状态。具体流程如图所示。如图所示，基于样本选择的跨被试脑力负荷识别共分两个步骤完成。第一步，参考验证集中的样本分布，对训练集中所有被试的样本分别进行样本选择，这样使得训练集中每个被试选择后得到的样本与

9、目标被试样本的分布差异减小的同时减少训练集样本数量。训练集中所有被试选择后得到的样本数据组成自适应源域训练集。第二步，将自适应源域训练集与目标被试测试集样本数据通过主成分分析寻找一个共享的特征子空间，并得到二者在该子空间中的主成分，这样会在实现特征降维的同时进一步减少域差异。最后，利用自适应源域训练集主成分训练目标分类器，估计目标被试测试集中每个样本的脑力负荷状态。通过样本选择和主成分分析方法，源域训练集中样本数量和维度减少的同时，也减少了源域样本与目标域样本的分布差异，训练得到的目标分类器更适用于目标被试，这样不仅可以提高分类效率，还可以提高分类精度。.样本选择假设训练集中有个被试，第个

10、被试有个科学技术与工程，（）投稿网址：图基于样本选择的跨被试脑力负荷识别概述维被标记了负荷状态的样本数据，表示为，其标签表示为，其中为第个样本提取的标准化特征向量。类似地，验证集样本数据表示为，其标签表示为，测试集样本数据表示为，。为了实现训练集样本与验证集样本的域自适应，通过式（）计算了验证集样本中低负荷和高负荷样本的中心，表达式为，|（）式（）中：和分别为验证集中低负荷和高负荷的样本数；和分别为验证集的低负荷样本子集和高负荷样本子集。由于训练集中各被试的样本与目标被试的样本分布不一致，对于训练集中所有的被试，将分别参考，进行样本选择。以低负荷为例，训练集中第

11、个被试的低负荷样本可根据式（）进行样本选择，表达式为（），|（）式（）中：和分别为样本集的低负荷和高负荷样本子集；为样本集中的样本个数。当时，表明样本与验证集低负荷样本中心的欧几里得距离相较中其他的样本是偏小的，距离更近，可以作为训练集样本。同理，可以通过式（）对高负荷样本数据进行样本选择，表达式为（），|（）式（）中：为样本集中的样本个数。可以选择中与距离更近的样本数据，从而消，（）曲洪权，等：基于样本选择的跨被试脑力负荷识别投稿网址：除远离的样本数据。具体算法实现如下。输入：验证集样本数据，及其标签表示为，训练集所有被试的样本数据，其标签表示为，步骤创建并

12、初始化自适应源域训练集及其低负荷和高负荷子集。步骤根据式（）计算验证集样本中低负荷和高负荷样本的中心，。步骤对源域训练集中每一个被试样本集，重复以下过程。（）创建并初始化自适应训练子集及其低负荷和高负荷子集。（）根据式（）和式（）对样本集中每一个样本计算（），或（），。如果（）或（），则或；否则，或。步骤自适应源域训练集低负荷子集，自适应源域训练集高负荷子集。步骤自适应源域训练集。输出：自适应源域训练集数据。.主成分分析与支持向量机在脑力负荷识别任务中，由于脑电数据分布在各个电极上，并且往往在各个电极的数据上提取多种特征，常常会导致得到的特征矩阵维度过高，这会加大对

13、后续的负荷估计的难度，导致识别模型更加复杂，识别效率低，识别精度差。因此需要对高维特征数据进行降维处理。主成分分析（，）是一种常用的数据降维方法，通过一个线性变换将一组具有相关性的特征向量转换成一组新的互不相关的向量，并从中选择几个较少向量，这几个向量可以保留原向量组中的大部分信息，在以这几个向量作为正交坐标系的低维空间中样本点散布得更开，相较原高维空间仅损失了较少的信息，以达到数据降维的目的。由于源域样本与目标域样本的分布具有差异，因此在对源域样本与目标域样本进行主成分分析时将源域样本与目标域样本连接起来进行主成分分析，这样可以在数据降维的同时得到一个源域样本与目标域样本共享的低维特征子空间

14、，在这个低维特征子空间中保留了源域样本与目标与样本共同的主要分布趋势，源域样本和目标域样本分布更加相似，在实现特征降维的同时减少源域样本与目标域样本之间的分布差异。选择支持向量机分类器（，）作为分类方法对脑力负荷进行分类，支持向量机通过核函数将输入特征映射到一个特征空间中并基于结构风险最小化的原理在空间中找到最优的超平面建立分类模型，是一种非常适合小样本学习的分类模型。将自适应源域训练集主成分作为支持向量机的输入，选取线性核为核函数。为了得到最优模型参数，对每组数据采用网格搜索法进行筛选，惩罚系数的搜索范围为.，。并且为了确保模型的鲁棒性和减少过拟合，在分类算法中进行了交叉验证分析。最后通过

15、训练得到的分类模型对目标测试集主成分进行脑力负荷状态估计，得到目标测试集中每个样本的脑力负荷状态标签。实验与分析.数据采集与预处理实验的数据采集实验平台是基于多任务航空情境操作的平台，该平台提供种任务，分别为系统监控任务、追踪监控任务、通信监控任务和资源管理任务。参与实验的被试需要在规定时间内对随机出现的个子任务做出反应操作。实验的名被试均为同专业的研究生，其年龄在岁，身体健康且为右利手，视力或矫正视力正常。将名被试在低负荷和高负荷这两个水平上的脑电信号数据作为本实验的实验数据。其中，低负荷任务水平指的是在单位时间内每个子任务呈现频次为次，高负荷任务水平指的是在单位时间内每个子任

16、务呈现频次为次。每名被试均需要在采集数据前充分熟悉任务操作。使用电极通道的系统（，.，）采集脑电信号，其中和电极被设置为参考电极，分别位于左耳和右耳后面乳突位置。脑电信号的采样频率为。每名被试均需在实验时分别完成两种负荷下的任务各，并且在完成两种不同负荷任务中间经过充分休息，在每次实验后使用任务负荷指数（）量表评价该次实验的合理性。为了模拟新被试仅有少量有标签的历史数据的情况，将每个被试前的数据作为验证集，用于训练集数据样本选择的参考，后的数据作为训练测试集，用于样本选择和主成分分析以及分类器的测试。验证集与训练测试集互不重叠，验证集信号长度为训练测试集的是为了使用有限的被试脑电数据模拟一个伪在线分类环境。对于各个被试的验证集和训练测试集，在后科学技术与工程，（）投稿网址：续实验中需分别进行预处理及特征提取。具体预处理如下：对于个通道的脑电数据，以和的平均值作为参考，对其他个通道进行转参考，之后利用带通滤波器对其滤波，以消除工频干扰，再利用重叠滑窗的方式对数据进行切分（切分长度为，重叠长度为.）。.特征提取由于在不同脑力负荷状态

展开阅读全文

基于样本选择的跨被试脑力负荷识别_曲洪权.pdf