1、第 1 期2023 年1 月电子学报ACTA ELECTRONICA SINICAVol.51 No.1Jan.2023基于动静态特征双输入神经网络的咳嗽声诊断COVID-19算法张永梅,孙捷(北方工业大学信息学院,北京 100144)摘 要:新型冠状病毒肺炎(COVID-19)已经在世界范围内造成了严重影响,在防控疫情方面学者们进行了大量研究.利用咳嗽声判断病变部位来诊断新冠肺炎具有非接触、成本低、易获取等优点,但是此类研究在国内较为匮乏.梅尔倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征仅能够表示声音的静态特征,而一阶差分MFCC特征还能反
2、应声音的动态特征.为了更好地防治新冠肺炎,本文提出了基于动静态特征双输入神经网络的咳嗽声诊断新冠肺炎算法,通过咳嗽声诊断新冠肺炎.在Coswara数据集基础上,对咳嗽声的音频进行裁剪,提取MFCC和一阶差分MFCC特征训练了一个动静态特征双输入神经网络模型.本文模型采用统计池化层,可以输入不同长度的MFCC特征.实验结果表明,与现有模型相比较,本文算法明显提升了识别准确率、召回率、特异性和F1值.关键词:深度学习;咳嗽声;新冠肺炎;梅尔倒谱系数;音频技术;卷积神经网络基金项目:国家重点研发计划(No.2020YFC0811004)中图分类号:TN912;TP183 文献标识码:A 文章编号:0
3、372-2112(2023)01-0202-11电子学报URL:http:/ DOI:10.12263/DZXB.20211630A Dynamic-Static Dual Input Deep Neural Network Algorithm for Diagnosing COVID-19 by CoughZHANG Yong-mei,SUN Jie(School of Information Science and Technology,North China University of Technology,Beijing 100144,China)Abstract:The COVID-
4、19(corona virus disease 2019)has caused serious impacts worldwide.Many scholars have done a lot of research on the prevention and control of the epidemic.The diagnosis of COVID-19 by cough is non-contact,low-cost,and easy-access,however,such research is still relatively scarce in China.Mel frequency
5、 cepstral coefficients(MFCC)feature can only represent the static sound feature,while the first-order differential MFCC feature can also reflect the dynamic feature of sound.In order to better prevent and treat COVID-19,the paper proposes a dynamic-static dual input deep neural network algorithm for
6、 diagnosing COVID-19 by cough.Based on Coswara dataset,cough audio is clipped,MFCC and first-order differential MFCC features are extracted,and a dynamic and static feature dual-input neural network model is trained.The model adopts a statistic pooling layer so that different length of MFCC features
7、 can be input.The experiment results show the proposed algorithm can significantly improve the recognition accuracy,recall rate,specificity,and F1-score compared with the existing models.Key words:deep learning;cough;COVID-19;Mel frequency cepstral coefficients;audio technology;CNNFoundation Item(s)
8、:National Key R&D Program of China(No.2020YFC0811004)1引言新型冠状病毒肺炎(COVID-19)简称“新冠肺炎”,平均潜伏期为5.2天,感染后会引起发烧、咳嗽以及其他类似流感的症状,影响人体多种组织和器官功能.许多受感染患者会发展为肺炎,并迅速转为严重的急性呼吸衰竭.研究表明,超过60%的患者一旦病情发展到严重阶段,就会很快死亡,因此,在疾病早期进行严密监控和有效干预变得尤为重要.截至2022年4月7日,根据世界卫生组织的官网报告,全球已有492 189 439例确诊病例,占全球总人口数收稿日期:2021-12-08;修回日期:2022-05
9、-17;责任编辑:朱梅玉第 1 期张永梅:基于动静态特征双输入神经网络的咳嗽声诊断新冠肺炎算法的 6.23%,其中死亡人数 6 159 474 人.随着疫情的发展,一些国家又出现了新冠病毒的变异.变异新冠病毒的传播为全球抗疫带来新的挑战.世界各国在抗击疫情时付出了沉重的财力物力代价.新冠肺炎疫情发生以来,如何在早期及时发现和识别公共卫生事件的发生和流行成为公共卫生领域的重中之重.新冠肺炎潜伏期长、传染性强,人群普遍易感,尽管大部分病例为轻症,但值得注意的是,仍有少数患者无肺炎症状,甚至无症状.在新冠肺炎疫情下对疑似病例的“早发现、早隔离”对遏制感染至关重要.此外,确诊过程中病人的核酸检测一定需
10、要是阳性,换言之,咽拭子、痰液,或者可能取得的支气管灌洗液等检查到了病毒核酸(阳性),才能作为确诊病例.虽然核酸检测为新冠肺炎诊断的金标准,但是核酸检测对样本采集的时期要求较高,若检测时鼻、咽拭子中所含的病毒载量过小,则可能导致核酸结果呈现“假阴性”.因此,电子计算机断层扫描(Computed Tomography,CT)检查在肺部感染的检出和评估中的价值举足轻重.然而,胸部CT检查也存在局限性.由于新冠肺炎缺乏特异性影像学表现,仅依据CT表现很难将新冠肺炎与其他类型病毒引起的肺炎加以鉴别.例如,新冠肺炎与腺病毒肺炎影像学表现特别相似,胸部CT检查无法鉴别.每一套胸部CT片子近300个切面,正
11、常情况下,一个有经验的医生也需要1530分钟才能查看完.在疫情防控的关键时期,如何提供一种非接触性、准确率高、成本低的新冠肺炎初步诊断方法显得尤为重要.无发烧、乏力、头晕等明显特征的无症状感染者,已经成为新冠病毒传播和复发的最大威胁.咳嗽声作为人的生物特征,是新冠肺炎患者的一个普遍症状,新冠肺炎患者的咳嗽声与非感染者不同,人耳很难分辨其中的差别.咳嗽信号在COVID-19检测呈阳性的患者中有所改变,新型冠状病毒很容易通过咳嗽或打喷嚏的方式释放出来,并传播给他人.在文献 1 中,麻省理工学院研究人员提出了一种新的人工智能模型,可以通过倾听非感染者和新冠肺炎患者之间咳嗽的细微差别,发现新冠肺炎确诊
12、病例和无症状病例.当患有新冠肺炎时,产生咳嗽声音的方式会发生变化,即使没有症状1.声音作为自然界的一种物理特征,具备非接触、检测成本低、侵入性小、可以提供快速结果等特点.例如张小恒等人2提出一种将非监督学习用于研究帕金森病的语音诊断方法,也为本文的研究提供了一定的理论基础.根据医学方面最新的研究进展和新闻报道,COVID-19病毒将可能与人类长期共存,所以研究开发基于咳嗽声的新冠肺炎检测算法具有巨大的潜力和应用前景.国外已经相继建立了多个采集和研究咳嗽声以及研发咳嗽声诊断新冠肺炎算法的项目,然而国内却缺少这方面的研究.根据世界卫生组织公布的新冠肺炎症状,新冠肺炎病人的咳嗽声和正常人有细微差别,
13、具体在肌肉退化、声带强度、情绪(怀疑或沮丧等)、呼吸和肺功能几个方面表现出特征差异3.印度班加罗尔科研机构(Indian Institute of Science(IISc)Bangalore)建立了Coswara项目收集咳嗽声,并意图实现新冠肺炎检测.卡内基梅隆大学建立了收集咳嗽声的项目,并与世界各地的研究者一起研究咳嗽声诊断新冠肺炎的算法.剑桥大学建立了咳嗽声收集项目,并且获得了欧洲研究委员会项目资助.该项目中,Brown等人4采用咳嗽声的梅尔倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)作为特征训练 VGGNet(Visual Geometr
14、y Group Network),并结合支持向量机(Support Vector Machine,SVM),取得了80%以上的新冠肺炎检测准确率;Han 等人5基于 SVM 训练了一个神经网络 Voice Only Model,新冠肺炎识别准确率为77%左右.Andreu-Perez等人6研究了在卷积神经网络(Convolutional Neural Network,CNN)基础上改造的 DeepCough2D 和 DeepCough3D 网络,分别利用 100331 的MFCC特征和100333的MFCC特征(利用3个采集设备的 3 个不同的 100331 的 MFCC 特征进行连接得到),
15、仅凭咳嗽声就能诊断是否感染新冠肺炎,准确率为96%.Imran等人7开发的分类器综合了肺部X光影像和咳嗽声诊断新冠肺炎,咳嗽声分类器(Classical Machine Learning-based MuLti-class classifier,CML-ML)将MN的MFCC特征先利用主成分分析(Principal Component Analysis,PCA)降维,得到MP的张量,再求振幅绝对值,得到M1的张量,与求均值后的M1的MFCC连接,组成2M1的特征向量,采用SVM进行分类,该分类器的分类准确率为90%左右.Bagad8提取了咳嗽声音频信号的257201频谱特征,利用64维的梅尔滤
16、波器组,处理成64201的对数梅尔频谱特征,输入到残差神经网络 ResNet18(Residual Network 18)完成分类.国外还出现了数个通过检测咳嗽声诊断新冠肺炎的手机或电脑软件.在国内,目前还没有基于咳嗽声诊断新冠肺炎的相关报道.赵建等人9利用 DNN-HMM(Deep Neural Network Hidden Markov Model)语音识别声学模型识别猪咳嗽声,及早发现生猪养殖过程中的呼吸道疾病.黎煊等人10采用深度置信网络(Deep Belief Network,DBN),通过猪咳嗽声检测猪呼吸道疾病,取得了90%203电子学报2023 年以上的准确率.目前的咳嗽声诊断新冠肺炎方法一般都直接利用咳嗽声的MFCC特征进行训练.MFCC虽然能较好地体现咳嗽声频率能量的静态特征,但是对于咳嗽声这种多个连续、每一次的轻重缓急都不同的声音类型来说,需要更准确的咳嗽声特征表达.李伟红等人11研究的经验小波滤波器组对低信噪比的声学信号取得了较好的特征提取效果.本文利用MFCC和一阶差分MFCC(即MFCC)特征,训练了一种新的动静态特征双输入神经网络模型,结合统计池化层对任意