1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第1期总第329期文章编号:1006-2475(2023)01-0043-06收稿日期:2022-02-05;修回日期:2022-03-06基金项目:科技部重点研发计划重点专项(2017YFB1402200);西藏自治区科技创新基地自主研究项目(XZ2021JR002G);西藏大学研究生“高水平人才培养计划”项目(2019-GSP-S118)作者简介:朱亚军(1994),男,河南周口人,硕士研究生,研究方向:自然语言处理,E-mail:;通信作者:拥措(1974),女(藏族),青海玉树人,教授,博士生导师,博士,研究方向:自然
2、语言处理,人工智能,E-mail:;尼玛扎西(1964),男(藏族),西藏拉萨人,教授,博士生导师,博士,研究方向:藏语计算语言学,E-mail:。0引言藏医药学是中国医药学重要的组成部分1。藏医药学者从不同的角度对藏医药做了相应的研究,无论是在临床使用上2-3,还是在藏药的理化分析上4-5,藏医药都取得了长足的发展,但是在藏医药的知识发现上却少有研究。藏医药学文本指的是有关藏医药学经验和知识的文字记录,其中蕴含着极其丰富的藏医药学常识、经验和知识6。比如藏医药典籍、医院就诊患者的诊疗记录等,这些文本往往是一些非结构化的藏文文字记录。藏文的语法结构非常复杂,其中包括以下4个主要问题:1)语序。
3、藏文的语序主要为主语-宾语-谓语,比如在“(川木香益气血)”中,宾语“(气血)”在谓语“(有利于)”的前面。2)大部分形容词具有一般形式、比较级和最高级。比如“好”有3个级别:“(好)”、“(较好)”、“(最好)”。3)动词分现在时、过去时、未来时和命令式。4)助词在藏文中具有重要作用,比如“”表示领属关系,“”表示领有关系等。语法结构越复杂语言模型对藏文的拟合难度越大,字符的上下文环境也越复杂。因此如何对大量的非结构化文本进行知识发现成为极具挑战的问题,而藏医药基于藏文BERT的藏医药医学实体识别朱亚军1,2,3,拥措1,2,3,尼玛扎西1,2,3(1.西藏大学信息科学技术学院,西藏 拉萨
4、850000;2.西藏自治区藏文信息技术人工智能重点实验室,西藏 拉萨 850000;3.藏文信息技术教育部工程研究中心,西藏 拉萨 850000)摘要:藏医药文本字符嵌入对藏医药医学实体识别有着重要意义,但目前藏文缺少高质量的藏文语言模型。本文结合藏文结构特点使用普通藏文新闻文本训练基于音节的藏文BERT模型,并基于藏文BERT模型构建BERT-BiLSTM-CRF模型。该模型首先使用藏文BERT模型对藏医药文本字符嵌入进行学习,增强字符嵌入对藏文字符及其上下文信息的表示能力,然后使用BiLSTM层进一步抽取藏医药文本中字符之间的依赖关系,最后使用CRF层强化标注序列的合法性。实验结果表明,
5、使用藏文BERT模型初始化藏医药文本字符嵌入有助于提高藏医药医学实体识别效果,F1值达96.18%。关键词:藏文;藏医药;命名实体识别;BERT;双向长短期记忆中图分类号:TP391文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.01.008Tibetan Medical Entity Recognition Based on Tibetan BERTZHU Ya-jun1,2,3,Yong Tso1,2,3,Nyima Tashi1,2,3(1.School of Information Science and Technology,Tibetan Univ
6、ersity,Lhasa 850000,China;2.State Key Laboratory of Artificial Intelligence for Tibetan Information Technology in Tibet Autonomous Region,Lhasa 850000,China;3.Ministry of Education Engineering Research Center for Tibetan Information Technology,Lhasa 850000,China)Abstract:Tibetan medicine character e
7、mbedding is of great significance for Tibetan medical entity recognition,but there is alack of high-quality Tibetan language model.Combined with Tibetan structural characteristics,the BERT model based on syllable is trained by using ordinary Tibetan news text,and a BERT-BiLSTM-CRF model is built by
8、using the Tibetan BERT model.Firstly,the model uses Tibetan BERT model to learn the character embedding of Tibetan medicine text,and enhances the abilityof character embedding to express Tibetan characters and their context information.And then,the BiLSTM layer is used to further extract the depende
9、ncies between characters in Tibetan medicine text.Finally,the CRF layer is used to strengthen the legitimacy of the label sequence.The experimental results show that using Tibetan BERT model to initialize character embedding ishelpful to improve the recognition of Tibetan medical entity,and the F1 v
10、alue reaches 96.18%.Key words:Tibetan;Tibetan medicine;NER;BERT;BiLSTM计算机与现代化2023年第1期文本中的医学实体识别则成了基础而重要的工作 7。命名实体识别(Named Entity Recognition,NER)一直被看作是序列标注问题。2001年,Lafferty等8提出基于条件随机场(Conditional Random Fields,CRF)来解决分词和序列标注问题。邵诗韵等9和张磊10分别使用CRF模型对电力工程标书文本和特定领域中的命名实体进行了识别;万静等11和高佳奕等12分别将CRF模型应用在中文医药领
11、域文本的命名实体识别,实现了症状信息的自动化抽取。2015年 Huang 等13将 长 短 期 记 忆(Long Short TermMemory,LSTM)14神经网络和CRF相结合并应用于序列标注任务,在多项文本理解任务中获得了SOTA结果。Gajendran等15使用BiLSTM对生物医学命名实体识别进行了研究,将字符级别和词级别的嵌入进行融合,丰富了字符嵌入的信息;Ch等16则分别使用CNN和BiLSTM对同一语料进行词嵌入的学习,进一步从多角度收集了文本的上下文信息,在2种语料库JNLPBA 和 NCBI-Disease 上 的 F1 值 分 别 达 到 了86.93%、75.31%
12、;殷章志等17和冯云霞等18均将字词信息融合后用于命名实体识别,充分利用了字和词的上下文信息,有效地提高了中文电子病历实体识别的效果;张艺品等19和高甦等20分别基于 BiLSTM-CRF模型从中医典籍中抽取了中国传统医学相关实体;牧杨子21基于BiLSTM-CRF模型,结合传统的半监督学习方法,扩展数据提高了模型的识别能力。值得一提的是,何家欢等22基于 BiLSTM-CRF 模型对藏医药中的药理命名实体进行了研究,是较早的对藏医药实体识别的研究。王银瑞等23使用双向的LSTM建立语言预测模型,并使用迁移学习的思想将语言模型的知识迁移到命名实体识别模型上,F1值达80.4%;朱岩等24使用R
13、oBERTa-WWM生成电子病历的语义表示,然后通过BiLSTM和CRF模型进行特征提取实现相关医学实体的识别,F1值达83.4%;景慎旗等25使用BERT对上下文信息进行表示,并通过图卷积神经网络(GCN)提取相关实体特征,完成电子病历文书中相关医学实体的识别工作,F1值达84.2%。BiLSTM-CRF模型的输入层使用的是Embedding网络,虽然也能够编码字符嵌入,但是Embedding网络层数不够深,对文本的学习能力不足。本文的主要工作有:1)首次对藏医药学藏文文本中的医学实体识别进行了研究。以往有关藏医药的命名实体识别研究数据主要来源于藏医药典籍的藏译汉版,在翻译过程中存在信息的丢
14、失和改变等信息壁垒,直接对藏文版医学著作进行研究可以跨越信息传递的壁垒。2)使用5 GB不同领域的藏文新闻语料训练了藏文BERT26模型。藏文BERT模型可以灵敏地捕捉藏文字符间的关系,较好地拟合藏文的内部规律。经BERT初始化的藏文字符嵌入包含了更加丰富的语法和语义信息,增强了字符嵌入对藏文字符的表示能力。3)基于藏文BERT模型构建了藏医药医学实体识别模型BERT-BiLSTM-CRF,将藏文BERT模型接入命名实体识别模型来初始化BiLSTM-CRF模型输入层的表示,藏文BERT模型能够实现根据不同的语境对藏医药文本字符进行灵活地表示,使字符嵌入对藏医药文本字符更能确切地表达,然后通过B
15、iLSTM-CRF模型学习字符到标签的映射关系和标签间的转移规律。在藏医药文本医学实体识别数据集上,BERT-BiLSTM-CRF 模型相比 BiLSTM-CRF 模型召回率R提升了2.1个百分点,F1值提升了0.0429,藏医药医学实体识别效果有明显提升。1基于BERT的藏医药医学实体识别模型基于BERT的藏医药医学实体识别模型使用藏文BERT模型初始化BiLSTM-CRF模型的输入,然后使用BiLSTM层抽取字符特征,最后使用CRF层为标注 序 列 添 加 转 移 约 束,解 码 标 注 序 列。BERT-BiLSTM-CRF模型整体结构如图1所示。图1BERT-BiLSTM-CRF模型结
16、构1.1基于BERT的字符嵌入层藏文BERT模型事先使用大量藏文新闻文本训练得到预训练的语言模型,再将其应用到藏医药文本字符嵌入的初始化层。如图1右所示。Lample等27的研究表明基于字符级别的表示能够获得与基于词级别的表示相同的效果。对于藏文而言,每一个具有意义的藏文词由至少一个藏文音节组成,并由音节点连接。因此综合藏文语言特点和NER任务特点,藏文BERT模型在训练时主要学习藏文音节间的关系。本文对开源预训练语言模型BERT 的源码进行了修改,重新实现了 BERT 的 tokenization文件,以此实现基于音节点对藏文文本中的音节进行切分,对藏文 BERT 模型的训练进行适配。此外,藏文文本在处理藏文特殊字符时,比如“”、“”、“”,仍按一个音节处理。在使用藏文BERT模型对藏医药文本字符嵌入初始化时,首先将藏医药文本中的字符转换为其对应的字典序,即字符编码;再对字符所属的句子进行标识,即句子标识编码;为了获取文本语法信息和上下文信息,还要提供每个字符的位置信息,即位置编码。将字符编码、句子标识和位置编码求和后送入编码器进行关系学习。p1编码器 解码器使用训练字符编码句子标识