融合结构特性的语义增强式古籍句读识别方法研究

资源描述

1、情报学报 2023 年 2 月第 42 卷第 2 期Journal of the China Society for Scientific and Technical Information,Feb.2023,42(2):150-163融合结构特性的语义增强式古籍句读识别方法研究李佩琪1，2，王昊1，2，任秋彤1，2，范涛1，2（1.南京大学信息管理学院，南京 210023；2.江苏省数据工程与知识服务重点实验室，南京 210023）摘要数字人文概念的提出扩展了古文自动化处理的内涵与外延，实现古籍文本语义的深层理解成为首要任务。因此，本文重点探索古籍句读识别任务中的语义增强模式，以提升主

2、流BBiC模型（BERT-BiLSTM-CRF）表征古籍文本语义的能力。本文融合结构特性从文本与模型两个维度实现古籍文本语义的深层表征，提出引入细粒度文本知识的BBiC-EK（BBiC-external knowledge）模型与融合文本结构特征的BBiCC-EK模型（BBiC-CNN-EK），并从模型结构化角度探究CNN与BiLSTM的最优连接方式以及外部知识编码的最优引入位置，多方位探究模型提升效果。研究结果表明，采用BBiC-EK模型中的最优外部知识组合模式，相较于基线BBiC模型能将句读识别准确率提升0.83个百分点；进一步融合CNN并探究最优模型结构下的BBiCC-EK（Se）模型能

3、将BBiC模型的识别准确率提升1.36个百分点。本文通过融合结构特性的语义增强技术，实现了古籍文本句读识别准确率的提升，为古籍文本的自动化语义理解提供了新思路。关键词数字人文；古籍文本；句读识别；BERTStudy of Antiquarian Punctuation Recognition Methods Incorporating Semantic Enhancement with Structural PropertiesLi Peiqi1,2,Wang Hao1,2,Ren Qiutong1,2 and Fan Tao1,2(1.School of Information Manag

4、ement,Nanjing University,Nanjing 210023;2.Jiangsu Key Laboratory of Data Engineering and Knowledge Service,Nanjing 210023)Abstract：The concept of digital humanities has extended the connotation and extension of the automated processing of ancient texts and achieving a deeper understanding of the sem

5、antics of ancient texts has become a priority.Therefore,this article focuses on exploring semantic enhancement models in recognizing punctuation of ancient texts to improve the ability of mainstream BBiC models(BERT-BiLSTM-CRF)to characterize the semantics of ancient texts.This article fuses structu

6、ral features to achieve a deeper representation of the semantics of ancient texts from both text and model dimensions,proposes a BBiC-EK(BBiC-external knowledge)model that introduces textual fine-grained textual knowledge and a BBiCC-EK model(BBiC-CNN-EK)that fuses the structural features of texts,a

7、nd explores the structural perspective of the model to explore the relationship between CNN and the optimal connection between CNN and BiLSTM.The optimal location of external knowledge coding is also investigated from the perspective of model structuring.The experimental results show that the optima

8、l external knowledge combination model in the BBiC-EK model can improve the sentence reading 收稿日期：2022-01-26；修回日期：2022-06-08基金项目：国家社会科学基金重点项目“大数据环境下领域知识加工与组织模式研究”（20ATQ006）；江苏青年社科英才计划；南京大学“仲英青年学者”项目。作者简介：李佩琪，女，2000年生，硕士研究生，主要研究领域为自然语言处理；王昊，男，1981年生，博士，教授，博士生导师，主要研究领域为自然语言处理，E-mail：；任秋彤，女，1998年生，硕士研究

9、生，主要研究领域为自然语言处理；范涛，男，1995年生，博士研究生，主要研究领域为自然语言处理。DOI:10.3772/j.issn.1000-0135.2023.02.003第 2 期李佩琪等：融合结构特性的语义增强式古籍句读识别方法研究recognition accuracy by 0.83 percentage point compared with the baseline BBiC model,and the BBiCC-EK(Se)model can improve the recognition accuracy of the BBiC model by 1.36 percent

10、age points by further fusing the CNN and exploring the optimal model structure.This article achieves the improvement of the punctuation recognition accuracy of ancient texts by fusing semantic enhancement techniques with structural features and provides new ideas for the automated semantic understan

11、ding of ancient texts.Key words:digital humanities;ancient text;punctuation recognition;BERT0引言文字是镌刻文明最直接的方式，通过文字记录的古籍文本是世代相传的文化遗产，是后世研究前人社会文化的重要材料。例如，二十四史勾勒出了中国历史发展的轨迹，是验证中华文明连续性的重要文献记载，成为民族文化遗产的瑰宝1。随着数字人文概念的提出，学者对古籍文本的处理实现了从手工整理到人文计算的演变2。正如语言学家吕叔湘所言，标点是“整理古籍的第一关”3，由于古人遵循行文无标点的文化习惯，句读识别成为古文句子级别自动化

12、处理的第一步。因此，古籍文本的自动化句读识别具有重要的研究价值。句读识别旨在对没有标点的古籍文本进行句子切分，识别出句读的位置，以便后续开展对标点的标注4。在数字人文研究范式的指引下，当前学界对古籍句读识别的研究诉诸文本语义理解引导的自动化识别任务上，形成了以 BERT（bidirectional encoder representation from transformers）-BiLSTM（bi-directional long short-term memory）-CRF（conditional random field）为主流的古籍句读识别模型5，这与语言学家所呼吁的“离经辨志”思想不

13、谋而合6，即读懂含义，方能断句。这为多角度全方位探究古籍句读识别的语义增强模式提供了契机。然而当前语义增强相关研究主要围绕文本内容展开，相关模型的构建也仅着眼于提升表征文字自身语义的能力，如 BERT 模型7，文本内容的深层次知识价值尚未得到挖掘利用。在古籍文本中字符是表达语义的最小单位，也是句式句型、文化背景、内在情感等外部知识的载体，例如，大多数语气助词在句中并无明确含义，BERT 在一定程度上难以对其进行准确的语义表征，但它们在语段中通常是情感表达的载体，隐含深层次知识价值。因此，引入字符级细粒度的隐喻知识对洞悉文本语义有重要意义。另外，目前在句读识别研究领域，立足于文本与模型的研究忽略

14、了结构特性，基于结构视角的语义增强研究仍处于空白，表现在以下方面：其一，古籍文本呈现篇幅短、语句凝练的结构特点。引入提取局部语义特征的小尺度卷积神经网络（convolutional neural network，CNN）能适配古籍文本的结构特性，短距离捕获字符之间的语义特征达到高质量语义提取。然而当前主流模型采用BiLSTM 进行较远距离的上下文关系捕捉，忽略了古籍文本的结构特点。其二，模型自身结构对表征与提取文本语义信息有重要影响。模型中的神经网络的联合次序反映了不同模型结构与其解析语义能力的作用机制8，然而模型结构特性在句读识别任务中的应用研究尚不深入。基于此，为了提升当前主流句读识别模型

15、BBiC（BERT-BiLSTM-CRF）对古籍文本语义信息的学习能力，本文从文本与模型层面出发，提出了基于细粒度文本内容，融合文本结构特性与模型结构特性的语义增强式古籍文本句读识别模型。文本视角：通过引入细粒度外部知识基于文本内容特进行语义增强，构建 BBiC-EK（BBiC-external knowledge）模型；通过引入CNN提取局部语义信息匹配文本结构特性，构建BBiCC-EK（BBiC-CNN-EK）模型。模型自身结构特性视角：在融合文本特性的基础上，从模型结构化的角度探究融合语义特征的位置对提升效果的影响，以期为古籍文本的自动化语义理解提供新思路。此外，句读识别是古文自动标点的

16、前序任务，同时也是汉语发展历程研究的基础工作，探究不同历史时期的句读规则对标点符号发展史的研究乃至汉语史的考证都有积极作用，因此，本文将构建的句读识别模型应用在二十四史三部不同时期的史料中进行实证研究，以期支持语言学者对古籍文史的研究。1相关研究近年来，数字技术在我国古籍文献信息处理中得到了广泛应用，在古籍文本的自动分词9、词性标注10等任务上已取得显著成果。在句子级别古文本的信息处理中，句读识别是学者们研究的热点之一4。句读识别与句子边界检测任务（sentence boundary detection，SBD）有一定的相似性，但不151第 42 卷情报学报等同。句子边界检测的主要目的是从书面文本或语音中探测句子的边界，将词序划分为具备完整语义的各个句子11，可处理的语言类型涵盖中文、英文在内的世界各国语言。文本句子边界检测实际是消除句子边界符号是否充当断句点的歧义问题12，而古籍文本句读识别致力于结合语义来识别适合添加句号、逗号、感叹号等中文标点的句读位置。显然，古籍文本句读识别对中文古籍文本的数字信息化组织整理更有价值。针对古籍文本句读识别，现存的主要

展开阅读全文

融合结构特性的语义增强式古籍句读识别方法研究_李佩琪.pdf