1、本栏目责任编辑:唐一东本期推荐Computer Knowledge and Technology电脑知识与技术第18卷第35期(2022年12月)第18卷第35期(2022年12月)基于BERT-CRF的中文分词模型设计陈月月,李燕,帅亚琦,徐丽娜,钟昕妤(甘肃中医药大学 信息工程学院,甘肃 兰州 730101)摘要:分词作为中文自然语言处理中的基础和关键任务,其分词效果的好坏会直接影响后续各项自然语言处理任务的结果。本文基于BERT-CRF的分词模型利用通用领域数据集与医学领域数据集对模型进行训练,分别取得F1值0.898和0.738的实验结果。关键词:BERT;CRF;中文分词;自然语言处
2、理中图分类号:TP311文献标识码:A文章编号:1009-3044(2022)35-0004-03开放科学(资源服务)标识码(OSID):自然语言处理(Natural Language Processing,NLP)是研究计算机理解和自然语言生成的信息处理1。随着深度学习的发展,神经网络算法被广泛应用于各项自然语言处理任务中。分词作为自然语言处理中的基础和关键任务,其结果会直接影响后续命名实体识别、关系抽取等自然语言处理相关工作的准确性2。由于神经网络具有很强的自学习性和自适应性,有助于提高中文分词模型的性能,因此,现有的中文分词模型大都结合了神经网络算法对分词模型进行构建。分词的目的是将一个
3、完整的句子分割为词语级别3。不同于英文中以空格为分词符号的分词,在中文文本中,词与词之间没有明确的分词标记,其以连续字符串的形式呈现,且存在一词多义和语境不同意义不同的现象。因此,做好中文分词工作对处理所有的中文自然语言处理任务有着至关重要的作用。1 相关工作分词模型是自然语言处理中最基本的语言处理模型之一。中文的语言结构复杂,难以准确地进行词语识别4。因此,中文分词成为分词任务中的热点话题。中文分词方法可以分为传统的分词方法和基于神经网络的分词方法。传统的分词方法包括基于词典规则的方法和基于统计的方法。基于词典规则的方法就是按照中文文本的顺序将其切分成连续词序,然后根据规则以及连续词序是否在
4、给定的词典中来决定连续词序是否为最终的分词结果5。基于词典规则方法构建的分词模型分词速度快、容易实现,且其在特定领域分词的准确率较高,但其高度依赖词典规则,针对词典规则中未登录词的识别效果差。基于统计方法构建的分词模型,其主要思想是把字符序列中的每个词都看作由字组成,计算字符序列中任意相邻字符出现的概率,概率值越大则说明相邻字符成词的可能性越大6。基于统计方法构建的分词模型可以很好地识别未登录词,但模型复杂度高,存在人工特征提取工作量大、容易过拟合等问题。鉴于传统分词方法的各种不足,近年来,随着计算机技术的不断发展,基于神经网络的分词方法逐渐成为分词任务处理中的研究热点。基于神经网络的分词方法
5、构建的分词模型,其主要思想是将输入序列中词向量的元素值作为模型参数,并使用神经网络和训练数据的学习来获取模型的参数值。神经网络充分利用了文本自身所具有的有序性和词共现信息的优势,具有很强的自学习性和自适应性,可以自动从原始数据中提取特征,而无须人工构造特征,避免了人工设置特征的局限性7。因此,神经网络算法在自然语言处理任务中得到了广泛的应用。张文静等8提出了一种基于Lattice-LSTM的中文分词模型,该模型集成了多粒度的分词信息,在多粒度的中文分词任务中取得了优异的性能表现;胡晓辉等3利用双向LSTM可以提取输入序列前后信息和卷积神经网络能够提取文本局部特征信息的特点,提出了基于BiLST
6、M-CNN-CRF的中文分词模型,在中文分词任务中取得了较好的效果。2 基本原理本文采用基于BERT-CRF的中文分词模型对文本进行分词处理。模型结构如图1所示。主要包含基收稿日期:2022-08-20基金项目:中国高校产学研创新基金(2020HYA02008)作者简介:陈月月(1997),女,山东博兴人,硕士,主要研究方向为深度学习、知识图谱;李燕(1976),女,通信作者,甘肃兰州人,教授,硕士,主要研究方向为中医药数据挖掘,中医药知识图谱;帅亚琦(1998),男,山东安丘人,硕士,主要研究方向为深度学习、自然语言处理、知识图谱;徐丽娜(1996),女,甘肃兰州人,硕士,主要研究方向为深度
7、学习、知识图谱;钟昕妤(1996),浙江海盐,硕士,主要研究方向为深度学习、知识图谱。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.18,No.35,December20224DOI:10.14004/ki.ckt.2022.2174本期推荐本栏目责任编辑:唐一东Computer Knowledge and Technology电脑知识与技术第18卷第35期(2022年12月)第18卷第35期(2022年12月)于BERT的词嵌入层和CRF条
8、件随机场模型层。其中,BERT的词嵌入层用于提取输入文本序列的上下文信息;CRF用于进行最后的序列标注,将输入的数据标注成B、M、E、S的向量形式。图1 BERT-CRF模型2.1 BERT词嵌入层BERT 是从 Transformer 中衍生出来的预训练模型,2018年由Google团队提出。BERT模型采用深层双向的Transformer组件来进行模型构建,打破了单向融合上下文的限制,生成了融合上下文信息的深层双向语言表征9。BERT的结构如图2所示,其中,E1、E2En为输入向量;T1、T2Tn为经过多层Transformer编码器后的输出向量。图2BERT结构BERT预训练模型凭借庞大
9、的语料库和强大的计算能力,在获得通用语言模型和表示的基础上,结合任务语料对模型进行微调10,可以很好地完成各类文本处理任务,成为当前各类自然语言处理任务中的研究热点和核心技术。2.2 CRF条件随机场模型层CRF条件随机场模型是由Lafferty等6提出的一种序列标记模型,它结合了最大熵模型(Maximum Entropy)和隐马尔可夫模型(Hidden Markov Model,HMM)的特点,能够充分考虑标签之间的依存关系,避免了标记偏执和最大熵模型局部优化的问题,克服了HMM输出独立性假设的缺点,可以很好地完成分词等其他序列标注任务。因此,现有的分词模型大都结合了CRF模型,模型结构如图
10、3所示。图3 CRF结构根据CRF的定义,CRF条件随机场模型是输入随机变量X和输出随机变量Y的条件概率分布模型。其中,X为输入变量,表示要标记的字符序列;Y是表示标注序列(也称为状态序列)的输出变量。3 实验及分析3.1 数据集本实验中的通用数据集来自SIGHAN 2005第二届中文分词任务中的Peking University数据集(简称PKU 数据集);中文医学领域数据(Chinese MedicalCorpus,CMC)来自 国医大师治疗中风经典医案 疗病丛书中所记录的医案数据。按照9:1的比例将通用领域和中文医学领域训练数据分割为训练集和验证集。3.2 实验设置本实验的环境参数和模型
11、训练参数设置如表1和表2所示。其中,模型训练的迭代次数(epoch_num)为20次。实验中涉及通用领域训练语料和医学领域训练语料,针对两个不同领域的数据集均使用BERT-CRF 分词模型对数据集进行训练。所有数据采用BMES四词位标注法进行标注,各标注的具体含义如表3所示。表1 实验环境参数参数CPUGPU操作系统编程语言深度学习框架值Intel(R)Core(TM)i7-11800H 2.30GHz 16.0 GBNVIDIA GeForce RTX 3050 TiWindows 10 64 bitsPythonPytorch5本栏目责任编辑:唐一东本期推荐Computer Knowled
12、ge and Technology电脑知识与技术第18卷第35期(2022年12月)第18卷第35期(2022年12月)表2 模型训练参数模型参数learning_rateweight_decayclip_gradbatch_sizeepoch_numpatience值1e-50.0154200.0002表3 BMES标注标注BMES含义词的起始字词的非起始字和结束字的其他字词的结束字单字3.3 评价指标试验结果评估指标采用查准率(Precision,P)、召回率(Recall,R)和F1值,各项指标的计算公式为:F1=2PRR+P(1)P=TPTP+FP(2)R=TPTP+FN(3)式中:T
13、P表示分词正确的词数;TP+FP表示分词的总词数;TP+FN表示标准分词集中的词数。3.4 结果分析本次实验分别利用PKU数据集和CMC数据集对BERT-CRF分词模型进行训练,其训练结果如图4和图5所示,两个数据集实验结果的对比如表4所示。图4 PKU数据集训练结果图5 CMC数据集训练结果表4 实验结果对比训练语料PKUCMC查准率P0.9050.724召回率R0.8910.753F1值0.8980.738由表4可以看出,基于BERT-CRF的中文分词模型的分词效果在通用领域数据集上的分词结果更好。这是因为不论是基于哪种分词方法来构建分词模型,其分词的效果都依赖于大规模的训练数据,但由于目
14、前医学领域开放的数据集较少,且数据专业性强,很难获得大量标注的训练数据,导致模型训练不够完全,无法达到模型所期望的最佳分词效果。因此,若想在医学领域数据集上获得更好的分词效果,需要增加医学领域的训练数据,并对模型进行进一步的优化和训练,使得模型能够更好地理解医学领域的中文文本,从而发挥模型的最佳分词性能。4 结束语针对自然语言处理中的中文分词任务,本文利用BERT-CRF的模型探究同一模型在不同领域数据集上的分词效果,分别在PKU数据集和CMC数据集上进行模型训练,得到F1值分别为0.898和0.738的实验结果,证明了该模型在通用领域数据集上的分词效果更好。参考文献:1 ISO/IEC.In
15、formation technologyartificial intelligenceartificial intelligence concepts and terminology:ISO/IEC TR 24372:2021(E)S.20212 WANG K,ZONG C,SU K Y.A character-based joint model forChinese word segmentationC/23rd International Conferenceon Computational Linguistics,2010:1173-1181.3 胡晓辉,朱志祥.基于深度学习的中文分词方
16、法研究J.计算机与数字工程,2020,48(3):627-632.4 王若佳,赵常煜,王继民.中文电子病历的分词及实体识别研究J.图书情报工作,2019,63(2):34-42.5 WU A.Word segmentation in sentence analysisC/Proceedings of 1998 International Conference on Chinese InformationProcessing.Beijing:Chinese Webster F.What information society?J.The Information Society,1994,10(1):1-23.6 LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditionalrandom fields:probabilistic models for segmenting and labeling sequence data C/Proceedings of the Eighteenth International Conference on Machi