1、收稿日期:20211216第 40 卷第 2 期计算机仿真2023 年 2 月文章编号:10069348(2023)02054005机器学习下半结构化文本信息抽取仿真朱小龙1,2,邱林3(1 荆楚理工学院计算机工程学院,湖北 荆门 448000;2 湖北省荆门产业技术研究院智能信息技术研究所,湖北 荆门 448000;3 长江大学计算机科学学院,湖北 荆州 434023)摘要:为了在海量信息源中抽取特定信息,将高维信息转换为低维信息,降低信息抽取难度,提出基于机器学习的半结构化文本信息抽取算法。利用自编码网络对文本信息实行降维处理,将高维的文本信息转变为低维信息,降低信息抽取的复杂度;在单词相
2、似度和文本相似度的基础上,对文本信息实行聚类处理,将机器学习中的隐马尔可夫模型应用在不同的文本信息类别中,实现半结构化文本信息的抽取。仿真结果表明,所提算法的信息抽取精度高、召回率高、准确率高、抽取效率高。关键词:机器学习;自编码网络;信息聚类;隐马尔可夫模型;半结构化文本;信息抽取中图分类号:TP391文献标识码:BSimulation of SemiStructured Text Information ExtractionUsing Simulation of Machine LearningZHU Xiaolong1,2,QIU Lin3(1 School of Computer En
3、gineering,Jingchu University of Technology,Jingmen Hubei 448000,China;2 Institute of Intelligent Information Technology,Hubei Jingmen IndustrialTechnology esearch Institute,Jingmen Hubei 448000,China;3 College of Computer Science,Yangtze University,Jingzhou Hubei 434023,China)ABSTACT:In order to ext
4、ract specific information from massive information,it is necessary to convert highdi-mensional information into lowdimensional information,and thus to reduce the difficulty of information extractionTherefore,an algorithm of extracting semistructured text information based on machine learning was pro
5、posed First-ly,we used the selfencoding network to reduce the dimension of text information and then to convert highdimen-sional text information into lowdimensional information,thus reducing the complexity of information extractionBased on word similarity and text similarity,the text information wa
6、s clustered Moreover,the hidden Markov modelin machine learning was applied to different text information categories Finally,we extracted semistructured text in-formation Simulation results show that the proposed algorithm has high precision of information extraction,high recallrate,high accuracy an
7、d high extraction efficiencyKEYWODS:Machine learning;Autoencoding networks;Information clustering;Hidden Markov models;Semistructured text;Information extraction1引言为了准确、高效地在海量信息中抽取特定的信息,需要一种自动化程度较高的计算机辅助工具。信息抽取系统的主要工作是在信息源中获取所需的信息,并向用户展示抽取的信息,将抽取的信息存储在数据库或电子表格中,方便后续工作的使用和分析1,2。目前针对半结构化文本的信息抽取算法较多,在各
8、个领域中都得到了广泛的应用,但目前的信息抽取算法都存在一些问题。赖娟3 等人在规则约束的基础上构建深度学习网络模型,首先在模型的学习模块中输入数据,在多个维度上结合多头注意力机制和 BiGU 网络生成单词对应的预测向量,利用规则库中存在的逻辑规则约束模型的深度学习,以此实现文本信息抽取,该算法没有对文本信息实行降维处理,对045高维文本信息抽取的复杂度较高,导致算法存在信息抽取精度低、召回率低的问题。孙新4 等人在 CNN 和 LSTM 自编码器的基础上建立短语向量模型,用于表示复杂短语的语义,针对候选短语,采用短语向量计算其对应的主体权重,对计算结果排序,完成文本信息的抽取,该算法的抽取结果
9、与用户所需的信息之间存在差异,存在信息抽取准确率低的问题。陈珂5 等人通过 BET 预训练语言模型提取文本信息的特征,通过依存句法根据信息特征选取最短依存路径,在分类模型中输入最短依存路径完成文本信息的抽取,该方法抽取文本信息所用的时间较长,存在信息抽取效率低的问题。为了解决上述方法中存在的问题,提出基于机器学习的半结构化文本信息抽取算法。2半结构化文本信息预处理2.1降维处理基于机器学习的半结构化文本信息抽取算法通过自编码网络完成文本信息的降维处理,用低维信息代替高维信息,降低后续半结构化文本信息抽取的复杂度。用 T=t1,tn 表示高维数据集,该数据集中共存在 n 个半结构化文本信息,将高
10、维数据集 T 输入自编码网络中,获取对应的低维嵌套结构 M。自编码网络结构由两个部分构成,第一部分为编码网络,第二部分为解码网络6。编码网络的主要目的是在维数固定的低维嵌套结构中映射高维原始半结构化文本信息;可用编码网络的逆过程描述解码网络,其主要作用是还原低维嵌套结构中存在的半结构化文本信息,将其转化为高维数据。自编码网络的核心是码字层,存在于解码网络和编码网络之间的交叉部分,具有嵌套结构的高维半结构化文本数据集的本质规律可通过码字层得以描述,获取本质维数7。采用自编码网络对半结构化文本信息处理的具体过程为:对编码网络和解码网络的权值实行初始化处理,遵循误差最小化原则训练自编码网络,半结构化
11、文本信息依次经过解码和编码网络,在链式法则的基础上计算梯度值,根据计算结果调整自编码网络的权值。所提算法在限制玻尔兹曼机连续形式 CBM 的基础上完成连续数的建模,通过 CBM 训练获得对应的权值,即编码网络和解码网络在自编码网络中的初始权值。在全局调整阶段中,利用反向传播算法完成权值的调整,实现半结构化文本信息的最佳重构。设 dj代表的是隐单元 j 在可视单元状态集 di 中的输出,可通过下式计算得到dj=ji=1wijdi+jNj(0,1)(1)式中,wij代表的是 CBM 的权值;函数 j的表达式为:j(xj)=L+HL1+exp(sjxj)(2)式中,L、H均描述的是渐近线中存在的点;
12、参数 sj对sigmoid 曲线的斜率具有调整作用,属于噪声控制变量,当参数 sj的值变大时,可以将无噪声的确定性状态平滑过渡到二进制随机状态。高斯随机变量 Nj(0,1)与常数构成噪声输入分量 nj=Nj(0,1),通过下式计算分量 nj的概率分布:p(nj)=exp n2j22()12(3)为了降低半结构化文本信息降维的计算量,将最小化对比散度训练准则引入 CBM 中,更新参数 sj和权值 wij:sj=a d2i d2js2jwij=w didj didj(4)式中,a、w均代表的是学习率;dj描述的是单元 j 的重构状态。2.2聚类处理基于机器学习的半结构化文本信息抽取算法通过计算文本
13、信息的单词间相似度和文本间相似度完成信息的聚类处理。2.2.1单词间相似度考虑半结构化文本信息之间存在的关系类型,结合信息量和节点连接距离,通过下式计算父概念节点 p 和子概念节点 c 之间的连接权值 wt(c,p)wt(c,p)=f(p)+1f(p)()+?(1)(p)Y(c,p)IC(c)IC(p)(5)式中,参数 的主要作用是控制节点深度对权值计算结果产生的影响;f(p)代表的是在层次结构中 p 节点对应的深度;参数的主要作用是控制局部密度对权值计算结果产生的影响;?代表的是层次结构的整体平均密度;(p)代表的是子节点在节点 p 中的数量;Y(c,p)描述的是节点之间存在的关系类型;IC
14、 代表的是概念信息量,可通过下式计算得到IC(c)=log1P(c)(6)式中,P(c)代表的是在语料库中出现概念 c 的概率。用 D(w1,w2)表示两个单词之间存在的语义距离,其计算公式如下D(w1,w2)=wt(c,parent(c)c path(c1,c2)LSuper(c1,c2)(7)式中,c1=sen(w1)、c2=sen(w2),path(c1,c2)描述的是节点在c1、c2最短路径中构成的集合;parent(c)代表的是概念 c 对应的父概念;LSuper(c1,c2)代表的是上位概念。各条边在最短路径中的权值和即为语义距离 D(c1,c2)D(c1,c2)=c=1wt(c,
15、parent(c)(8)结合上述公式计算概念之间存在的距离 D(c1,c2)D(c1,c2)=IC(c1)+IC(c2)2ICLSuper(c1,c2)(9)两个含义间语义距离的最小值即为单词间的语义距离D(w1,w2)145D(w1,w2)=minc1c2 D(c1,c2)(10)2.2.2文本间的相似度考虑每个概念在联合概念中的元素,用 D(d1,d2)表示两个半结构化文本信息之间存在的语义距离8,9,其计算公式如下D(d1,d2)=D(C1 Ck,U1 Um)=ki=1mj=1gigfD(Ci,Cj)/n(11)式中,Ci、Ui描述的是半结构化文本 d1、d2的概念列表中存在的单词;gi
16、代表的是半结构化文本 d1中概念 Ci出现的总数;k、m 代表的是半结构化文本概念列表中存在的元组数;n描述的是概念语义在半结构化文本中存在的数量,可通过下式计算得到n=ki=1gimj=1gj(12)半结构化文本的语义相似度 Sim(d1,d2)的计算公式如下Sim(d1,d2)=11+D(d1,d2)(13)根据单词相似度和文本相似度完成半结构化文本信息的聚类处理。3半结构化文本信息抽取通过上述过程完成半结构化文本信息的预处理,在不同类别的文本信息中基于机器学习的半结构化文本信息抽取算法通过隐马尔可夫模型10,11 完成信息抽取,具体步骤如下3.1隐马尔可夫模型构建采用隐马尔可夫模型实现半结构化文本信息抽取,首先学习训练文本,构建隐马尔可夫模型,通过 EM 算法12,13 计算初始时刻各状态的概率 ii=Init(i)Nj=1Init(j)(14)式中,Init(i)代表的是初始状态为 si的半结构化文本序列在训练文本中的数量;Nj=1Init(j)代表的是初始状态的半结构化文本序列在训练文本中的数量。设 aij代表的是状态为 si的模型变为状态 sj的概率,其计算公式如下aij=