1、20电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计文献引用格式:孙文涵,王俊杰.基于 BERT 的施工安全事故文本命名实体识别方法 J.电视技术,2023,47(1):20-26.SUN W H,WANG J J.Named entity recognition method of construction safety accident text based on BERTJ.Video Engineering,2023,47(1):20-26.中图分类号:TP311.1 文献标识码:A DOI:10.16280/j.videoe.2023.01.00
2、5基于 BERT 的施工安全事故文本命名实体识别方法孙文涵,王俊杰(中国海洋大学 工程学院,山东 青岛 266400)摘要:为解决传统施工安全管理中对事故报告信息分析效率低的问题,利用自然语言处理(Natural Language Processing,NLP)技术,提出基于双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)的施工安全事故文本命名实体识别方法。以自建的施工安全事故领域实体标注语料数据集为研究对象,首先利用 BERT 预训练模型获取动态字向量,然后采用双向长短时记忆网络-注意力机制-条件随机场
3、(BiLSTM-Attention-CRF)对前一层输出的语义编码进行序列标注和解码以获取最优文本标签序列。实验结果表明,该模型在自建数据集上的 F1 值分数为 92.58%,较基准模型 BiLSTM-CRF 提升了 4.19%;该方法对事故时间等 5 类实体识别 F1 值均可达到 91%以上,验证了该方法对施工安全事故实体识别的有效性,说明模型可用于实际施工知识管理中并指导建筑安全管理的安全培训。关键词:双向编码器表示(BERT);施工安全管理;命名实体识别;知识图谱;知识管理Named Entity Recognition Method of Construction Safety Acc
4、ident Text Based on BERTSUN Wenhan,WANG Junjie(School of Engineering,Ocean University of China,Qingdao 266400,China)Abstract:In order to solve the problem of low efficiency of accident report information analysis in traditional construction safety management,a BERT-based construction safety accident
5、 text named entity recognition method was proposed using Natural Language Processing(NLP)technology.A self-built corpus dataset of entity annotation in the field of construction safety accidents was used as the re-search object.Firstly,Bidirectional Encoder Representations from Transformers(BERT)pre
6、-training model was used to obtain dynamic word vectors,and then used Bidirectional Long Short Term Memory-Attention-Conditional Random Field(BiLSTM-Attention-CRF)to sequentially annotate and decode the semantic codes output from the previous layer to obtain the optimal text label sequences.The expe
7、rimental results showed that the F1 value score of the model on the self-built dataset was 92.58%,which was 4.19%higher than the benchmark model BiLSTM-CRF;the method achieved an F1 value of 91%or more for the recognition of five types of entities such as accident time,which verified the effectivene
8、ss of the method for the recognition of construction safety accident entities.It indicated that the model can be used in practical construction knowledge management and guide safety training for construction safety management.Keywords:Bidirectional Encoder Representations from Transformers(BERT);con
9、struction safety management;named entity recognition;knowledge graph;knowledge management 基金项目:山东省重点研发计划项目(2019GHY112081)。作者简介:孙文涵(1998),女,硕士,研究方向为建筑领域知识图谱、自然语言处理。E-mail:。0 引 言施工安全管理是维系建筑业稳定的重要工作。住房和城乡建设部统计资料显示,2021 年,全国共发生房屋市政工程生产安全事故 623 起、死亡 700人。建设过程中的非结构化事故报告文本数据通常 电视技术 第 47 卷第 1 期(总第 566 期)21P
10、ARTS&DESIGN器件与设计作为制定预防措施的依据。但在传统施工安全管理中,对事故信息的利用依赖于人工解释和处理,缺乏把事故信息转化为可复用知识的工具。施工安全事故的预防,可以通过整合多源异构的施工安全事故案例信息,构建施工安全领域知识图谱。该图谱可用于案例检索、危险源推测以及原因分析1等,这些都对施工安全管理水平提升起着重要作用。实体是知识图谱的基本单元。建立一个事故报告实体自动提取模型,识别施工安全事故中包含领域知识的实体要素,是构建施工安全领域知识图谱的基础工作。基于自然语言处理(Natural Language Processing,NLP)与机器学习的信息抽取方法作为知识提取的关
11、键技术2,目的是从文本文档中提取有效信息或领域知识填充预定义的信息模板3-4。命名实体识别(Named Entity Recognition,NER)是信息抽取的子任务,通常分为基于规则的方法5、基于统计机器学习的方法6和基于深度学习的方法7。深度学习方法已成为目前解决 NER 任务的主流方法。张鹏翔8和陈业明9利用多维字符特征表示对抽取铁路设备事故信息;FANG D 和 Chen H10基于自然语言数据增强的小样本训练方法自动抽取建筑事故新闻报道和法律法规中的信息。这些方法在加强知识管理方面发挥着有益的作用,但输入的字向量都是由 N-gram、Word2Vec 模型训练得到的静态字向量,不能
12、全面表征字向量在不同上下文中的特征,难以解决实体表述不一致以及一词多义的问题,影响实体识别效果。鉴于此,笔者拟收集 1 200 份施工安全事故报告,构建施工安全事故领域实体标注语料数据集;利 用 双 向 编 码 器 表 示(Bidirectional Encoder Representations from Transformers,BERT)预训练模型作为模型编码器获取动态字向量,以解决传统命名实体识别方法在静态字向量表示上的语义信息缺少问题;设计双向长短时记忆网络-注意力机制-条件随机场(Bidirectional Long Short Term Memory-Attention-Cond
13、itional Random Field,BiLSTM-Attention-CRF)模型作为解码器,解决施工安全事故报告文本中的上下文信息利用不充分问题,在此过程中得到的施工安全事故实体将促进施工安全领域知识图谱的构建,并更好地指导建筑安全管理的安全培训。1 概念定义及实体标注规范由于施工安全事故领域目前没有可以直接提供使用的数据集,首步工作需先自行构建实验所需数据集。施工安全事故报告主要包括事故时间、事故地点、施工项目、施工任务以及事故类型等事故知识元素,是有关施工安全事故的重要文本数据。本文所使用的施工安全数据集语料主要来自中华人民共和国住房和城乡建设部、各地方安全监管部门以及媒体报道,共
14、收集了 1 200 条左右的施工安全事故报告,并将事故文本序列以句号划分。结合建筑施工安全领域的实际应用,本文对事故文本中的实体要素进行分类,构建了包含事故类型、事故时间、事故地点、施工工程、施工任务、死亡人数、受伤人数、相关单位以及金额损失 9 类实体的安全事故数据集,并利用 YEEDA 软件完成标注,如图 1 所示。标注规范采取“BIO”方式。“B-”表示每个实体的首个字符位置,“I-”表示每个实体的中部以及结尾字符位置,“O”表示除实体外的其他无关字符。实体示例及标签如表 1 所示。表 1 实体示例及标签实体类别实体示例头标签中间及尾标签事故类型施工升降机轿厢坠落事故B-ACCO-ACC
15、事故时间2019 年 4 月 25 日B-TIMEO-TIME事故地点衡水市桃城区B-LOCO-LOC施工工程翡翠华庭项目B-PROO-PRO施工任务塔吊顶升过程B-JOBO-JOB死亡人数11 人死亡B-FATO-FAT受伤人数1 人重伤B-INJO-INJ相关单位*有限公司B-ORGO-ORG金额损失1800 万元B-MONO-MON其他O2 施工安全事故命名实体识别模型用于施工安全事故报告实体提取的 BERT-BiLSTM-Attention-CRF 模型框架如图 2 所示。该模型主要由四层组成:BERT 文本向量化层、BiLSTM特征提取层、注意力机制层及 CRF 推理层。首先,BER
16、T 预训练层通过无监督方式在大量未标注数据上做训练,实现文本到字符级向量的转换。其次,采用 BiLSTM 层对输入的字符向量进行双向编码,通过学习事故报告中的依赖关系,实现对施工安全22电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计事故报告文本的深度感知与理解,并将本层提取的特征向量传递给注意力机制层。注意力机制层协助模型重点关注显著性强的信息,对显著性弱的特征进行抑制,增强模型对事故报告的特征理解。最后,CRF 层对注意力机制层的输出解码,考虑标签间的约束关系,获取最优的事故报告实体的标注序列。2.1 BERT 文本向量化层施工事故报告包含事故时间、事故地点及事故类型等语义信息。这些语义信息是模型理解施工事故报告的基础。传统的语义向量是以静态的方式处理文字,无法解决实体表述不一致及一词多义的问题。BERT 是多层的双向 Transformer 结构的预训练语言表征模型,能够自动提取出序列中丰富的语法结构特征、语义特征以及位置特征,使模型获取丰富的语义信息。BERT 的输入编码向量为每一个 token 对应的表征。该表征由对应的词嵌入、分割嵌入及