收藏 分享(赏)

中文分词技术研究进展综述_钟昕妤.pdf

上传人:哎呦****中 文档编号:435952 上传时间:2023-03-29 格式:PDF 页数:6 大小:1.55MB
下载 相关 举报
中文分词技术研究进展综述_钟昕妤.pdf_第1页
第1页 / 共6页
中文分词技术研究进展综述_钟昕妤.pdf_第2页
第2页 / 共6页
中文分词技术研究进展综述_钟昕妤.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 22卷 第 2期2023年 2月Vol.22 No.2Feb.2023软 件 导 刊Software Guide中文分词技术研究进展综述钟昕妤,李燕(甘肃中医药大学 信息工程学院,甘肃 兰州 730101)摘要:中文分词作为实现机器处理中文的一项基础任务,是近几年的研究热点之一。其结果对后续处理任务具有深远影响,具备充分的研究意义。通过对近5年分词技术研究文献的综合分析,明晰后续研究将以基于神经网络模型的融合方法为主导,进一步追求更精准高效的分词表现。而在分词技术的发展与普及应用中,亦存在着制约其性能的各项瓶颈。除传统的歧义和未登录词问题外,分词还面临着语料规模质量依赖和多领域分词等新难题

2、,针对这些新问题的突破研究将成为后续研究的重点之一。关键词:中文分词;深度学习;语料依赖;多领域分词DOI:10.11907/rjdk.221438开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP391.1 文献标识码:A文章编号:1672-7800(2023)002-0225-06A Summary of the Research Progress of Chinese Word Segmentation TechnologyZHONG Xin-yu,LI Yan(School of Information Engineering,Gansu University o

3、f Traditional Chinese Medicine,Lanzhou 730101,China)Abstract:As a basic task of machine processing,Chinese word segmentation is one of the research hotspots in recent years.The results have a far-reaching impact on the follow-up processing tasks,and are of full research significance.Through the comp

4、rehensive analysis of the research literature on word segmentation technology in the past five years,it is clear that the follow-up research will be dominated by the fusion method based on neural network model,and further pursue more accurate and efficient word segmentation performance.In the develo

5、pment and application of word segmentation technology,there are also various bottlenecks restricting its performance.In addition to the traditional ambiguity and unknown words,word segmentation is now faced with new problems such as corpus scale and quality dependence and multi-domain word segmentat

6、ion.The breakthrough research on these new problems will become one of the focuses of the follow-up research.Key Words:Chinese word segmentation;deep learning;corpus dependence;multi-domain participle0 引言随着人工智能的发展,自然语言处理(Natural Language Processing,NLP)任务在实现人机交互、个性推荐、智能搜索、风险调控等场景中发挥着巨大作用。相较于英文,中文存在字

7、词边界模糊且语法结构复杂的问题,影响了计算机的直接处理性能。中文分词(Chinese Word Segmentation,CWS)则通过各类方法实现文本字词的明确划分及词性标注等功能,一直以来是 NLP 任务的基础步骤之一。而近期,学者们对 CWS 研究的必要性产生了一些争议。2019年,Li等1经四项NLP基准任务对比实验发现,由于未登录词、数据稀疏和跨领域等问题的存在,使得深度学习的词级模型因更容易出现过拟合现象而表现不如字级模型。但这不能否认分词研究的意义。2020年,Chen等2表示字级模型中缺乏的词信息对于文本匹配任务是潜在有益的。此外,在实体识别等涉及术语的 NLP 任务中,其效果

8、直接受中文分词基础任务结果影响3。而杨佳鑫等4将分词后词性结果引入模型中更是实现了实体识别性能的有效提高。由此可见,中文分词仍具有其重要研究意义。回顾中文分词方法(Methods of Chinese Word Segmen收稿日期:2022-04-19基金项目:甘肃中医药大学研究生创新基金项目(2022CX137)作者简介:钟昕妤(1996-),女,甘肃中医药大学信息工程学院硕士研究生,研究方向为数据挖掘;李燕(1976-),女,硕士,甘肃中医药大学信息工程学院教授、硕士生导师,研究方向为中医药数据挖掘、医学信息学及信息技术在医学中的应用。本文通讯作者:李燕。2023 年软 件 导 刊tat

9、ion,MCWS)发展的整个历程,可将其大致划分为匹配、统计、深度学习三大类。如图1所示,基于CNKI平台,通过对“中文分词方法”主题词检索获得的所有文献进行计量可视化分析,在其次要主题中对“分词方法”“字符串匹配”“基于统计”“神经网络”进行文献趋势对比发现,自2017年以来,深度学习方法逐步代替匹配与统计两类方法成为分词方法研究的主流。本文主要基于近5年国内外CWS技术研究文献,介绍并总结分析其传统方法与深度学习方法的研究现状以及其面临的相关难题,探讨CWS技术研究的热点以及未来发展趋势,以期为后续研究提供思路和方向。1 中文分词的传统方法传统的中文分词方法主要为匹配与统计两大类,其现有研

10、究已形成较为稳定的算法模型。1.1匹配方法匹配方法主要通过各种算法将文本与词典进行匹配划分。匹配算法与词典构建皆是该方法的核心,直接影响了分词的效能与性能。经过研究发展,匹配算法主要形成了正向、逆向、双向等流派,词典构建则以二分、哈希表、TRIE树等机制为主。其中,基于词长与语义大致呈正相关且主干成分常被后置的汉语规律,如杨文珍等5、张乐6等在进行中文分词时,大都采用逆向最大匹配算法。匹配算法的使用便捷高效,但此类方法的性能对词典的依赖程度极高,无法很好地处理词典中未出现的词以及多种可能的分词的情况,而这种情况在进行面向领域的中文分词任务时格外突出。由此,纯粹的匹配方法已不能满足目前的分词需求

11、。在近期研究中,学者们大都将词典作为一种辅助手段,结合统计或深度学习的方法优化模型。其使用方法主要包括:通过构建领域词典7-10来提升模型在专业领域的分词性能,再通过动态更新词典7进行完善;利用词典构建伪标记数据11用于模型训练提高准确率。目前,词典的构建多是人工与统计方法的结合,而在初期,词典的构建主要源自专家们的手工构建,需耗费大量人力和时间。由此,随着计算机技术的发展,学者们开始尝试将数学的统计法应用于分词中实现机器自主分词。1.2统计方法统计方法的基本思想是根据词组合出现的概率判断是否划分为词边界。该类方法能在一定程度上较好地解决分词歧义,且能识别出未登录词。当前CWS研究中,常见的统

12、计方法有N-gram模型、隐马尔科夫模型和条件随机场模型等。1.2.1N-gram模型N-gram模型基于第n词只依赖于前n-1词的假设,攘括了词前所能获得的全部信息。凤丽洲等12利用标准词典和训练语料,通过组合词迭代切分,并基于N-gram选择获取最优分词序列,在提升效率的同时实现了分词性能的提升。但在实际训练中,此类方法会因信息缺乏产生平滑问题,需要基于一定规模的语料进行训练。此外,因其参数空间随着n值的增大呈指数增长,n值在应用中大多取为1或2。1.2.2隐马尔科夫模型隐马尔科夫理论(Hidden Markov Model,HMM)起源于马尔可夫过程(Markov Process,MP)

13、,描述将来状态仅依托当前状态,而无关于过去状态。但由于MP限制条件在实际问题中难以满足,学者们在此基础上提出了双重随机过程的HMM。HMM设立在齐次和独立两大假设前提上,主要涉及了隐藏的状态和序列观测两个随机过程,即任一点状态仅与前一点状态有关,而独立于其他点,且任一点观测只依赖于该点状态,而独立于其它点观测与状态。基于HMM,宫法明等13依据术语集判断并选择模型对应阶层,从而实现了领域下子学科的自适应分词。Yan等14则利用HMM对经词典匹配后的剩余文本进行二次分词,从而实现对未登录词的识别,并由此进一步完善词典。而基于独立假设的前提条件,HMM无法很好地融合语境信息,存在效能不高的问题。对

14、此,学者们进一步研究提出了条件随机场模型。1.2.3条件随机场条件随机场(Conditional Random Fields,CRF)是一种无向图模型,在归一化时考虑数据的全局分布,从而克服了HMM的不足,利用语境实现全局最优分词,成为统计方法中应用最为广泛的模型。基于CRF模型,Lin等15利用Fig.1Word segmentation method,string matching,statistics based,neural network sub theme publishing trend图1“分词方法”“字符串匹配”“基于统计”“神经网络”次要主题发文趋势 226第 2 期钟昕妤

15、,李燕:中文分词技术研究进展综述BIO编码捕获数据隐藏变量和潜在结构,为每个输入序列选择最佳编码结果,并经实验验证了优越性。正是由于CRF模型在序列标注问题上的良好表现,如 Zhang等16、Jun等17、车金立等18众多学者们在近期研究中,将其与各类深度模型结合,以经深度模型输出的特征作为输入,进而获得最优序列标注结果。但由于其特征自定义且性能受特征限制的问题,当特征过多时CRF模型更易倾向于过拟合和较低效率。虽然统计方法能从一定程度上缓解歧义和未登录词问题,但此类方法构建的模型复杂度较高,且需要人工提取特征。随着人工智能的发展,基于深度学习的神经网络模型经过实验研究获得了更为精准高效的性能

16、框架,学者们尝试将此类方法引入CWS任务中进行研究。2 中文分词的深度学习方法随着人工智能技术的飞速发展,中文分词的深度学习方法逐渐替代传统方法成为主流。该类方法主要通过各类神经网络模型使计算机能够模拟人的学习及分词过程。因此,模型大都基于已标注好的语料库进行训练,通过不断调整各参数实现模型的最优性能。相对于概率统计的分词方法,此类方法无需人工特征选择,更好地填补了统计方法的不足。目前的深度学习方法大多建立在卷积和循环等基础神经网络模型的变体之上。2.1卷积神经网络卷积神经网络(Convolutional Neural Network,CNN)是基于卷积计算的前馈神经网络,包括卷积、池化、全连接等结构,在图像识别处理领域被广泛使用。近几年,学者们尝试将CNN应用于NLP任务中,并取得了不错的效果。传统CNN的池化处理主要作用是精简特征,从大量特征中提取获得最具意义的,而这操作在进行NLP任务时却会造成文本信息的遗失。因此,如Guan等19、涂文博等20、王星等21大都使用无池化层的CNN模型进行分词处理,在提高模型准确率的同时也加快了训练速度。深度学习的分词方法依赖于一定深度的网络模型

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2