1、第 46 卷 第 1 期2023 年 2 月电 子 器 件Chinese Journal of Electron DevicesVol.46No.1Feb 2023收稿日期:20210923修改日期:20220112Speech ecognition Model for Power System DispatchingControl Based on Deep Neural NetworkHU Xiang*,YANG Yang,JIANG Changjiang,Pan Ziqiang,KUANG Zhongqin(Southwest Branch of State Grid Corporati
2、on of China,Chengdu Sichuan 610000,China)Abstract:In order to improve the efficiency and quality of dispatching control,it is necessary to build an intelligent dispatch assistantfor power systems,and the key of the realization of intelligent dispatching assistant is the accurate recognition of dispa
3、tching controlcommand Therefore,it is necessary to carry out the study of speech recognition model applicable to southwest power dispatch systemFirstly,the speech recognition model suitable for power dispatch control system is studied by using the method of deep neural networkSecondly,a feature desi
4、gn method of power grid dispatching control language is proposed,which can effectively contain a variety of dia-lect features and improve the accuracy of speech recognition Finally,an actual power grid is taken as an example,and the effectivenessof the proposed method is verifiedKey words:deep neura
5、l network;dispatching;control;speech recognition;power systemEEACC:6130doi:103969/jissn10059490202301016一种基于深度神经网络的电力系统调度控制语音识别模型胡翔*,杨洋,蒋长江,潘自强,匡仲琴(国家电网有限公司西南分部,四川 成都 610000)摘要:为了提高电网调度生产效率,需要研发电力系统智能调度助手,而智能调度助手实现的关键是调度控制命令的精准识别,因此,有必要开展适用于电力调度系统的语音识别模型研究。首先,利用深度神经网络的方法,研究适用于电力调度控制系统的语音识别模型。其次,提出了电
6、网调度控制语言特征设计方法,能够有效包容多种方言特征,提高语音识别的准确性。最后,以实际电网为例进行验证,表明了所提方法的有效性。关键词:深度神经网络;调度控制;语音识别;电力系统中图分类号:TN91234;TP183文献标识码:A文章编号:10059490(2023)01009006随着电网规模的不断的发展,电网调度控制越来越复杂、难度越来越大,传统调度模式面临应用多、通话多、记录多,认知难、决策难、协同难“三多三难”问题,严重影响调度生产效率,因此发展调度控制智能体系是降低操作员工作难度、提高工作效率的重要保障,而电力系统的调度控制语音智能识别是智能调度机器人、电网智能助手等人机交互实施智
7、能化调度控制命令的前提和基础13。目前,国内外专家学者利用机器学习、模式识别和人工智能相关算法实现自然语言识别、人工语音恢复等方面进行了深入的研究46,但是将语音识别方面的研究应用至电力系统经济调度、安全分析、运行控制等方面的研究相对较少。例如,文献 7提出了 Automatic Operator 的电网调度自动化概念,提出智能调度机器人的设想;文献 8 在此基础上,结合中国电网调度运行特点,通过主题定义、生成海量训练样本、特征选择和规则生成等步骤形成集群机器的软硬件系统。这些理论和方法实现了电网智能调度和控制,但是没有涉及人机交互过程中的智能语音识别等方面。对此,文献 9基于隐马尔可夫模型建
8、立了语音信号,通过高斯混合模型拟合语音状态输出的概率分布,使用 Baum-Welch 算法训练模型的参数,在训练参数过程中仅仅考虑了声学模型中的语料方面;文献 10 通过建立电力语言语体的语法规则模型,基于微软语音 API 平台,经过语音训练、语法编辑、语音识别、关键词提取、语音训第 1 期胡翔,杨洋等:一种基于深度神经网络的电力系统调度控制语音识别模型练和合成,然而该方法未涉及人工智能相关领域的算法;对此,文献 11 基于深度神经网络方法,采用Transformer 的双向编码器构建电网调度语音识别模型,并对输入电网调度语言特点进行了语义特征、关键字特征和实体命名特征进行构建,然而没有考虑语
9、音环境和特殊语言、字体等情况。文献 1216针对电力系统调度决策中停电计划的文本信息,分别采用卷积神经网络、双向长短时记忆网络等深度学习方法实现语义表达的调度文本语义解析算法,而没有涉及语音等方面处理。总之,截至目前,人工智能相关方法已经初步应用至电力系统语音识别领域,但尚未研究特殊字符和方言(含多种语言)的电力系统调度控制语音识别等问题。对此,本文提出一种基于深度神经网络的电力系统调控语音识别方法,并面向四川方言进行训练优化,解决传统语音识别模型在电力领域及方言识别场景识别率不高的问题。1改进隐马尔科夫模型传统语音识别的第一步是提取语音特征,第二步是将语言特征与声学特征库进行匹配(建立方言、
10、多语种语音库),第三步是构建语言模型(构建电力调度控制语法规则及其关键字词),形成正确的语句。语音识别的基础是语音信号分析,并对其特征进行提取。人体发出的语音信号是受外界环境、人体发音状态、噪声等随着时间变化而变化的,因此需要分析建模该时变信号的特征参数才能精确建模。传统语音建模特征参数常采用线性预测编码系数、线性预测编码倒谱系数和梅尔频率倒谱系数三种,而梅尔频率倒谱系数具有广泛的人耳听觉普适性而得到较多应用,其计算方式为:FM(f)=1 125ln 1+f700()(1)式中:FM表示梅尔频率单位;f 表示频率。由式(1)可见,梅尔频率倒谱系数是基于声音频率的非线性梅尔刻度的对数能量频谱的线
11、性变换,这样的非线性表示,可以在多个领域中使声音信号有更好的表示,例如在音讯压缩中。20 世纪 Jelinek 等人通过实验验证了隐马尔可夫模型能够良好地建立语音信号模型17,采用该模型,以梅尔频率倒谱系数作为特征参数,就能够建立语音信号的概率分布模型。11传统隐马尔可夫模型传统隐马尔可夫模型由一个五元素向量构成:H=N,M,A,B(2)式(2)中 N 表示隐马尔可夫模型中的状态总数目,状态可以表示为:S=s1,s2,sN(3)式(2)中 M 表示观测的状态值总数,观测状态数值可以表示为:O=o1,o2,oM(4)式(2)中的 A 表示状态转移概率矩阵,可以表示为:A=aijNNaij=P q
12、t+1=si|qt=sj(5)式中:si和 sj分别两种不同的状态;函数 P()表示条件概率计算;P qt+1=si|qt=sj 表示在 t 时刻状态为 qt=sj的情况下在 t+1 时刻状态为 qt+1=si的概率。通常来说,式(5)中的元素 aij属于概率,因而具有约束条件:0aij1(6)式(2)中的 B 表示观测状态数值概率,可以表示为:B=bijNMbij=P vt=oj|qt=si(7)式中:bij表示条件概率,该条件概率是在 t 时刻 qt=si状态下获得观测状态数值 vt=oj的概率,也具有如式(6)所示的约束条件。式(2)中的符号 是隐马尔科夫模型初始 t=1时刻的概率分布状
13、态:=i1Ni=P qt=1|si(1iN)(8)通过上述分析,当确定式(2)中的五个参数后,即可确定隐马尔可夫模型。隐马尔可夫模型确定后,通过式(2)式(8)可见该模型存在两个时序相关、逻辑紧密的概率分布:式(5)的状态转移概率和式(7)的观测符号状态概率。这两个概率分布实际上由时序语音信号经过隐马尔科夫模型抽象为特征状态,并进一步抽象为观测值。考虑到实际时序语音信号存在不同环境背景,受语种、方言、腔调等影响,导致该语音时序信号中特征参数具有时变性,且属于不同类别,因此需要改进传统隐马尔可夫模型。12改进观测权值的隐马尔可夫模型设改进的隐马尔科夫模型(后文简称改进模型)状态集仍为式(3)的
14、S,其中的 N 表示状态总数;观测集仍用 O 表示,其中的 M 表示观测状态总数;状态转移矩阵 A 和观测数值概率矩阵 B 仍然分别采用式(5)和式(7)。为了凸显出式(4)观测状态数值的特性,采用19电子器件第 46 卷集合 表示观测集 O 的权值:=ro1,ro2,roM(9)式中:roi(i=1,2,M)表示状态被观测为状态数值oi的权值。对应地,定义权值观测条件概率:已知 t 时刻观测集合 t和某状态 si下,获得观测状态数值 vt的概率:pvtsit=P vt|qt=si t(10)式中:t=rto1,rto2,rtoM;符号 表示同时满足。式(10)可以进一步变形为:pvksitb
15、i t|bi|t|(11)式中:i表示为:bi=(bi1,bi2,biM)。由式(11)可见,该式子是向量 i和 i相似度计算。向量 i是由一系列的条件概率构成的,表示在状态 si条件下观测到一系列状态数值 o1,o2,oM的概率,而 t表示观测数值权值。若二者相似度较大,说明二者接近,可以确定此时状态为 si。反之,若二者相似度很小,则说明在状态 si下观测到vk的概率很低,以实现较小切合度分类的目的。由此可见,通过引入式(10)能够实现语音信号分类识别的目的。2卷积神经网络的声学模型21声学模型第 1 部分介绍了语音信号的特征提取和分类模型,建立语音信号的特征之后,需要进行声学模型建模。设
16、在 t 时刻,通过第12 部分获得的语音信号观测值:t=rto1,rto2,rtoM(12)那么声学模型即为:W=arg max P W|t(13)式中:W=w1,w2,wM 表示语音中的字组成的向量;P W|t 表示已知 t情况下 W 的条件概率。对式(13)按照条件概率运算方式进行变换得:P W|t=P WtP t=P t|W WP t=P t|W P W(14)那么,式(13)的最优声学模型为:W=arg max P W|t =arg max P t|W P W(15)为了获得式(15)中的最优解,实际是计算 p t|W 和 p W,可以通过卷积神经网络予以求解。22卷积神经网络求解卷积神经网络是深度学习算法中的一种,广泛应用于音频和语音信号处理中,其基本结构由卷积层、池化层和全连接层构成,如图 1 所示。图 1卷积神经网络结构图由图 1 可见,卷积层主要是最左侧信号的输入部分,并采用奇数范围内的卷积核函数进行多层深度卷积运算,然后在激活函数的作用下进行非线性放射变换。池化层是对卷积层获得的计算结果进行归纳,并按照最大值池化法则进行优化;全连接层中采用 BP 神经网络对池化层的优