1、第 38 卷第 1 期大 连 海 洋 大 学 学 报大 连 海 洋 大 学 学 报Vol.38 No.12 0 2 3 年 2 月JOURNAL OF DALIAN OCEAN UNIVERSITYFeb.2 0 2 3DOI:10.16535/ki.dlhyxb.2022-305文章编号:2095-1388(2023)01-0140-09基于规则匹配与深度学习 AbTransformer 的渔业标准表格信息抽取方法孙哲涛1,2,于红1,2,宋奇书1,2,李光宇1,2,邵立铭1,2,杨惠宁1,2,张思佳1,2,孙华1,2(1.大连海洋大学 信息工程学院,辽宁省海洋信息技术重点实验室,辽宁 大连
2、 116023;2.设施渔业教育部重点实验室(大连海洋大学),辽宁 大连 116023)摘要:为解决渔业标准文本中表格结构多样、表头位置不固定导致抽取效果不佳的问题,提出一种结合规则匹配(rule-based-matching,RBM)与 AbTransformer(Absolute Transformer)深度学习模型的表格信息抽取方法,该方法对规则类表格信息采用规则模板与 BERT-BiLSTM-CRF 模型进行信息抽取,对非规则类表格信息采用改进的 Transformer 进行抽取,即在位置编码模块中引入行位置编码,与特征向量拼接以获取表格行列位置。结果表明:本文中提出的 AbTrans
3、former 模型相较于机器学习 MLP 模型,AUC 值提升了1.46%,相较于 TabTransformer 模型,AUC 值提高了 1.18%;本文中提出的 RBM-AbTransformer 模型与 Ab-Transformer 模型相比,准确率、召回率和 F1 值分别提高了 7.78%、4.19%和 5.27%。研究表明,结合RBM 与 AbTransformer 的渔业标准表格信息抽取方法,有效解决了表格结构多样、表头位置不固定的问题,提升了渔业标准表格信息抽取的整体效果。关键词:渔业标准;实体识别;表格信息抽取;深度学习;Transformer 模型中图分类号:S 932.2;T
4、P 391 文献标志码:A 标准化是渔业发展的主要趋势,实现渔业标准化需要渔业标准信息服务系统的支撑1,完善渔业标准信息服务系统需要从渔业标准文本中抽取其中蕴含的知识2。渔业标准通常以文本、表格和图像形式表示,表格作为渔业标准的重要组成部分,其中蕴含着丰富的渔业领域知识,研究如何从表格中抽取其中蕴含的知识对渔业标准服务至关重要。表格信息抽取包括表格检测3、表格结构构建4和表格信息抽取5。渔业标准表格信息抽取的关键是表格信息抽取,抽取表头与单元格信息6,主要方法包括基于规则的模板匹配、基于机器学习的表格图与表格树构建及基于深度学习的方法。基于规则匹配方法是指对表格结构进行整理构建模板库,将表格与
5、模板库进行匹配从而实现表格信息抽取。Shigarov 等7提出的 TableXL 模型,利用规则匹配对表格进行定义,整理出表格模板,进而抽取表格内信息。赵洪等8在分析政府统计报表语义构成要素基础上,结合信息抽取与集成融合的方法,有效实现了异构型政府统计报表的抽取与集成融合。Azzi 等9提出了一种统计领域表格的解决方案,并描述了从统计数据表中抽取实体和关系来构建知识图谱的全功能流水线。然而,一些学科领域表格构成复杂,特定的规则并不能涵盖所有表格信息。为此,研究者采用机器学习方法对表格信息进行抽取。Chen 等10提出 GBDT 模型,通过构建梯度决策树对表格信息进行抽取。Li 等11采用 Ch
6、en 等的 GBDT 模型对财务表格内容进行抽取。但这些机器学习法依赖于结构,渔业标准表格形成的数据集缺乏表格结构,若重新进行人工标注,所需工作量较大。随着深度学习的发展,研究者将神经网络应用于表格信息抽取中。递归神经网络(RNN)通过对 收稿日期:2022-10-11 基金项目:设施渔业教育部重点实验室(大连海洋大学)开放课题(2021-MOEKLECA-KF-05);国家自然科学基金(61802046)作者简介:孙哲涛(1998),男,硕士研究生。E-mail:1638714363 通信作者:于红(1968),女,博士,教授。E-mail:yuhong 单词赋予令牌,以位置顺序输入到网络模
7、型中12,而表格既包含行位置又包含列位置,无法使用单一顺序输入。因此,毛尚伟等13采用只关注相对位置的 Transformer-CRF 模型,处理单元格位置不固定的表格数据。然而 Transformer-CRF 模型处理单元格行列嵌套的复杂表格时识别率较低。Huang等14在 Transformer 模型基础上提出了 TabTrans-former 模型,改进了 Transformer 模型内部的相对位置编码,采用行编码将表格的每行数据拼接传入模型之中,并在其后加入多层感知机(MLP)作为解码器,其提出的模型通过列编码添加单元格列位置信息,对嵌套等复杂表格信息抽取效果较好。Huang 等14采
8、用的数据集是 UCI 存储库中的 Tab-ular 数据集,该数据集内表格以行表头为主体,对列表头抽取效果不理想。渔业标准表格作为规范性表格,与其他表格相比结构较为统一。其中数值表内单元格均为数值,标题表内表头与标题相同,但渔业标准表格在结构固定之下仍存在部分非结构化表格,这类表格存在行列嵌套、表头位置不固定等问题,难用规则描述,因此,无法仅用规则来抽取渔业标准表格信息。采用深度学习虽然对复杂表格的识别率更高,但对较明显结构的表格仍会造成误识别15,可采用规则方法对其进行补充,通过设定好的表格结构模板可准确匹配、识别并抽取表格信息。本研究中,针对渔业标准表格结构多样、表头位置不固定的问题,提出
9、规则匹配和深度学习相结合的表格信息抽取方法,对于可解读出规则的结构化表格,通过指定规则模板对其进行抽取;对于行列表头不固定的非结构化表格,通过在深度学习模型 AbTrans-former 位置编码模块中引入行位置编码,与特征向量拼接以获取表格行列位置,实现表头定位并进行抽取,以期提升渔业标准表格信息抽取的整体效果。1 结合规则匹配与深度学习的表格信息抽取方法1.1 表格信息抽取模型为实现渔业精准养殖的目的,渔业服务系统应提供详尽的渔业标准知识库。渔业标准表格是渔业标准知识库的重要组成部分,因此,需要抽取渔业标准表格实体节点填充到知识库中,如“体质量”、“初产年龄”、“45 龄”等实体(图 1)
10、。这些节点包含了具体的渔业标准指标名称和指标值,可提高知识库的质量,使得渔业标准服务系统能为养殖技术人员提供准确且全面的渔业标准知识。对渔业标准表格数据分析发现,表格分为不同类别,而不同类别的表格需采用不同的处理方式。表头与单元格格式固定的数值表、标题实体与表格内表头实体相同的非数值表可采用规则匹配(RBM)法抽取表格信息,而部分非数值表因表头位置不固定则需采用深度学习法抽取表格信息。因此,本研究中提出 RBM-AbTransformer 渔业标准表格信息抽取方法,其总体框架如图 2 所示。图 1 渔业标准表格信息抽取效果Fig.1 Rendering of fishery standard
11、table extraction图 2结合规则匹配(RBM)与 AbTransformer 的表格信息抽取方法流程Fig.2 A table information extraction method flow combining RBM and AbTransformer141第 1 期孙哲涛,等:基于规则匹配与深度学习 AbTransformer 的渔业标准表格信息抽取方法首先采用规则模板对表格内表头与单元格格式固定的表格进行匹配,抽取其中的表格信息。对标题实体与表格内表头实体相同的非数值表,由于命名实体识别(NER)技术在渔业标准识别上已趋于成熟,故采用任媛等16的 BERT-BiLST
12、M-CRF模型进行标题实体识别,将识别出的实体作为规则实体与表格内单元格匹配,对表格表头进行定位,进而实现表格信息抽取。非规则表格中不包含表头与单元格为单链结构的数值表或标题实体与表格内表头实体相同的非数值表,无法使用定义好的规则模板进行抽取,采用人工定义规则繁琐耗时,非规则表格存在表头跨行跨列、表头行列不固定等问题。因此,将规则模板无法匹配的表格界定为非规则表格,并采用 AbTransformer 深度学习模型对行列表头进行定位,进而实现对表格信息抽取。1.2 基于规则匹配的渔业标准表格信息抽取1.2.1表关系及表头定义对数值表及标题结构化的非数值表采用规则法抽取表格信息。在构建表结构规则模
13、板前,需先对表关系进行定义并设定表头匹配规则,以实现与模板精准匹配。首先使用资源描述框语言(RDF)描述所有相关表。将表格信息用表头三元 组 及单元格三元组描述。其中,Si、Ti表示主表头及次表头;Ri表示表头间关系(总分关系,并列关系);O(i,k)是一个类型化表格实体,表示第 i 行和第 k 列交叉处单元格信息;Rk表示表头与单元格间关系(上下位关系,同位关系)。匹配规则示例如图3 所示,数值表存在结构规则“TableHead(str)+n Cell(int)”,表格由多个存在并列关系的表头构成,每个表头对应 n 个数值单元格,可通过设定正则表达式(RE)规则匹配所有数值表,定位数值表表头
14、;部分非数值表标题内存在与表头实体相同的表格种类实体,其结构规则为“TableEntity(str)=CellEntity(str)”,通过标题实体与表格内单元格匹配,定位非数值表表头所属行列。1.2.2标题表头信息抽取标题实体可以作为规则模板精准定位表格表头,采用 BERT-BiLSTM-CRF 模型识别标题实体。其中,BERT17层作为标题短语的预训练词嵌入模型输出词向量,以提高词向量泛化能力;BiLSTM 层作为模型训练层学习目标实体的特征信息,利用序列向量的上下文信息提高 NER 的识别效果;CRF 层解码 BiLSTM 的输出矩阵,添加约束,以避免输出不合法的标签序列。BERT-Bi
15、LSTM-CRF 模型结构如图 4 所示。图 3 表格结构匹配规则Fig.3 Matching rules for table structures图 4 BERT-BiLSTM-CRF 模型结构Fig.4 Structure of BERT-BiLSTM-CRF model1.2.3表格信息抽取规则库建立表格信息由表头与单元格构成,在定位表头后,需设定规则,明确表头及表格标签,再将各标签按关系拼接为表格三元组。因此,对已定位表头的数值表和非数值表,可与模板匹配对表头与表格单元格赋予定位标签,进而抽取表格信息。表格规则模板及抽取出的表格三元组对应表如图 5 所示,通过规则模板抽取出的表格信息示
16、例如图 6 所示。表格模板包含 5 项规则:1)预处理。替换空单元格、省略号“”等无关单元格。2)与行表头标签关联。通过设定两个规则来关联表头标签,一是在最顶行的非空单元格上生成表头标签;二是从最上面的一行开始自上而下搜索表格行,检查相邻行对,若单元格 a11 与主表头 B处于同行,且与上级单元格 A1 处于嵌套列中(图 5),则设为次表头标签。3)与列表头标签关联。同样通过设定两个规则来关联表头标签,一是从最左侧列中的非空单元格创建标签;二是同规则 2)中第 2 条。241大连海洋大学学报 第 38 卷4)单元格标签设置。对位于表头同行/同列的剩余单元格设置标签。5)合并关系。将标签归为 3 种类别,即主表头、实体 i=(1,2,n)和数值。根据表间关系,将同一行/列的单元格与行/列表头标签相关联。图 5 表格信息抽取模板图Fig.5 Template diagram of table content extraction 图 6 表格信息抽取示例Fig.6 Example diagram of table content extraction 1.3 基于深度学习 AbTransf