1、面向南海叙事的事件要素自动抽取方法研究程为1,司徒凌云2,郑德俊1,王燕红2,石进2(1.南京农业大学 信息管理学院,江苏 南京 210031;2.南京大学 信息管理学院,江苏 南京 210023)摘要:【目的/意义】对南海历史事件中具有标识意义的事件要素进行提炼与梳理,是构建南海大事记、讲好中国南海故事的基础。【方法/过程】首先总结南海历史事件的特殊性,进而论述南海叙事的具体维度,在此基础上定义事件要素划分标准实现对南海历史事件的规范建模,接着提出了一种结合规则与深度学习的事件要素自动抽取方法,最后以南海相关学术论文为对象,通过实证研究验证了该方法的有效性及效率。【结果/结论】研究表明,BE
2、RT+BiLSTM+CRF模型表现优于其它对比模型,宏观F1值达到87.73%;通过规则约束优化BERT+BiLSTM+CRF模型后,宏观F1值达到88.76%,取得了不错的效果,在面向泛化南海历史事件文本时能快速、有效地抽取出各类型事件要素实例。【创新/局限】结合南海历史事件的特征,探索了面向多维度南海叙事的事件要素自动抽取方法,实现学术论文中各类型事件要素的抽取,后续有待在更多文献资料类型上进行泛化实验。关键词:南海;历史事件;叙事;事件要素;规则;深度学习中图分类号:G254DOI:10.13833/j.issn.1007-7634.2023.03.018收稿日期:2022-05-17基
3、金项目:国家社科基金青年项目“多模态南海疆维权证据链智能化构建研究”(22CTQ029);教育部哲学社会科学研究后期资助重大项目“面向南海维权的民国档案资料增补与研究”(21JHQ014);江苏省社科基金青年项目“面向海疆智库领域的知识组织模式研究”(21TQC004)。作者简介:程为(1998-),男,湖北仙桃人,博士研究生,主要从事文本挖掘、知识服务研究;司徒凌云(1988-),男,江苏南京人,博士,助理教授,主要从事安全与威胁情报、软件与系统安全研究,通讯作者:;郑德俊(1968-),男,安徽天长人,博士,教授,主要从事信息计量分析、知识服务与评价研究;王燕红(1992-),女,浙江杭州
4、人,博士研究生,主要从事知识服务、数字图书馆研究;石进(1976-),男,安徽马鞍山人,博士,教授,主要从事大数据分析研究。1 引言事件要素抽取的目标是将非结构化事件进行结构化描述,如“主语+谓语+宾语”“触发词+事件论元”等结构,是进一步实现事件规范组织、智能检索与动态展示的基础。相关研究基于战争事件【1】、突发事件【2】、灾难事件【3】等探索了面向特殊事件类型的事件要素划分标准及自动抽取方法,为面向南海历史事件的事件要素抽取提供了可应用的可能。近年来,南海议题成为新闻与舆论的热点【4】,挖掘南海历史事件中的事件要素并以其为线索梳理历史事件间的叙事脉络,是讲好中国南海故事、论证我国拥有南海主
5、权的重要途径。目前南海历史事件挖掘存在两点不足:一是严重依赖于人工,需要耗费大量人力成本对文献进行提炼、甄别、标记、编码【5】;二是信息粒度较粗,难以快速提供事件中有价值的关键信息【6】。因此,本文从服务于讲好中国南海故事的实践出发,聚焦南海历史事件的特殊性,梳理南海历史事件的叙事线索,进而探索面向南海叙事的事件要素划分标准及抽取方法,以期为南海大事记构建、多维度南海叙事等进一步研究提供研究基础。2 相关研究基于本文研究内容,将从南海历史事件的挖掘与组织、事件要素抽取技术两方面梳理相关研究。2 2.1 1 南海历史事件的挖掘与组织南海历史事件的挖掘与组织目前南海历史事件的挖掘与组织多以人工方式
6、对事件进行时间线梳理【7】,如李彩霞【8】所著的 南海诸岛历史事件编年 按时间先后对南海诸岛的发现与命名、开发与利用以及当今中国对主权的维护与坚持等方面进行综合介绍;李剑【9】所著的 中国在南海的历史性权利及证据目录 依历史事件发生的先后顺序对历史事件集中编排,构建了半结构化的南海主权证据表;张良福等人【10】编著的 南沙群岛大事记(1949-1995)聚焦南沙群岛,按时间顺序编录了从1949年到1995年我国对南沙群岛主权有关声明和行使主权管辖、科学考察活动等资料。还有学者基于事件梳理从地名演变史【11】、多方争端【12】、文件解读【13】等不同角度进行研究,但事件规模通常较小,且较少关注事
7、件要素自动抽取。总之,目前南海历史事件的挖掘与组织严重依赖于人工,对事件要素情报科学20232023年第年第3 3期期(第第4141卷卷)博士论坛-155的梳理多集中在时间维度,未从多维度南海叙事的需求出发对事件要素进行规范分类与深度挖掘。2 2.2 2 事件要素抽取技术事件要素抽取技术事件要素抽取技术主要分为两大类。一是基于自然语言处理工具的抽取,基于句法依存分析、语义依存分析与语义角色分析对事件文本中的“主语+谓语+宾语”结构进行自动抽取,在通用文本中取得了不错的效果,英文文本常用的处理工具如 StanfordNLP【14】等,中文文本的处理工具如LTP【15】等。二是构建自动抽取模型实现
8、事件要素抽取,主要分为基于规则【16-17】、基于机器学习【18-19】和基于深度学习【20-22】的方法。基于规则的方法将人工制定规则转换为程序规则进行自动化处理,如杨建林等【23】基于规则模式的定义实现突发事件案例信息的抽取;常用的机器学习基准模型包括HMM、SVM、CRF等,如周枫等【24】基于最大熵算法对越南新闻事件中的时间、地点、人物要素进行抽取;常用深度学习模型包括 CNN、BiLSTM、Bi-GRU 等,相关研究在非遗记载事件【25】、战争事件【26】、史记 事件【27】等特殊事件类型上进行了实验。现有事件要素抽取研究以“主语谓语宾语”(SPO)三元组的抽取为主,也有研究面向特殊
9、事件类型探索了时间、空间等事件要素的自动抽取,采用各种方法达到较好的效果。但由于事件特征的差异性,简单的SPO抽取与面向其他特殊事件类型的抽取方法难以全面、准确、有效地揭示南海历史事件信息。因此,基于南海历史事件的特殊性,探索南海历史事件的要素划分标准及其自动抽取方法将是本文的着力所在。3 面向南海叙事的事件要素抽取方法3 3.1 1 南海历史事件的特征南海历史事件的特征南海文献资料中记载了大量历史事件,是真实反映与还原南海客观历史的事实依据。相较于一般事件,南海历史事件具有如下五大特征:(1)时间跨度的延续性。从古至今,中国人对于南海的探索、开发与管理已历经几千年的历史,相关资料记载了我国开
10、发、管理南海的一系列事件;(2)地缘争端的复杂性。南海地缘争端中涉及岛礁众多,从南沙群岛、西沙群岛等群岛到黄岩岛等岛屿,都有大量相关争端事件的记载;(3)涉事主体的多元性,南海争端直接涉及的国家包括中国、越南、菲律宾、马来西亚、印度尼西亚与文莱,还有美国、日本等国的参与,各方关系千头万绪;(4)涉事行为的多变性。我国在维护南海主权的相关事件中也通过不同的主权宣示行为以及开发、经营、管辖等行为合法行使主权;(5)涉事材料的丰富性。我国曾多次发表官方声明并出台了一系列法律法规,包括大量的文书材料与法理依据,并在相关历史事件中得以记载。3 3.2 2 南海历史事件的叙事维度南海历史事件的叙事维度南海
11、历史事件繁杂分散,以南海历史事件五大特征为切入点,从相应角度将原本混乱无序的事件有序梳理与组织,进而厘清一系列相关事件之间的叙事脉络,可以从不同维度讲述南海历史。因此,将南海叙事分为以下五个维度:(1)时间维度。通过分时期的历史事件时序组织,可以揭示或反映不同阶段我国有关南海的相关政策以及具体的维权行为,讲述不同时代的南海故事;(2)地缘争端维度。聚焦南海某一岛礁,通过相关历史事件的聚合,可以系统梳理围绕该岛礁的争点及各方行为,以事件链的形式讲述相关历史事件的内在联系与因果影响;(3)涉事主体维度。通过对不同涉事主体的相关事件进行集中,可以系统讲述不同主体在历史演进中的政策变化与行为逻辑,以及
12、不同主体之间利益关系或代表立场的演变过程;(4)涉事行为维度。通过对涉事行为的集中组织,一方面能够讲述我国在某一维权行为上的历史承接性与延续性,另一方面也能讲述我国大到国家层面如新建人工岛、小到个人层面如打渔的南海开发经营故事;(5)涉事材料维度。基于涉事材料对相关历史事件进行组织,可以系统梳理文书材料的形成背景及条件、后续影响、各方态度等,讲述国际背景下各方博弈的南海故事。3 3.3 3 南海历史事件要素的划分南海历史事件要素的划分基于事件要素挖掘与共现分析,可以揭示南海历史事件之间的多层次关联,最终从不同角度对事件有序重组织。因此,结合南海叙事维度,对南海历史事件要素的结构化定义见公式(1
13、):E=C+T,L,S,B,D(1)其中,E 代表一条南海历史事件,包括事件内容(Content)及各类型事件要素实例集合,分别为时间(Time)、地点(Location)、主 体(Subject)、行 为(Behavior)、文 书(Documents)。基于前期的文献调研,以及南京大学南海研究协同创新中心的专家建议,定义事件要素的划分规则说明见表1,南海历史事件的结构化描述示例见图1。图1 南海历史事件结构化描述示例Figure Examples of structured description of historical events in the South China SeaInf
14、ormation ScienceInformation ScienceVol.41,No.3 2023-1563 3.4 4 南海历史事件要素自动抽取方法南海历史事件要素自动抽取方法时间、地点、行为发起方(主体的一种)、行为(触发词)、行为作用方(主体的一种)是事件要素抽取中的常见要素,但相比一般历史事件的要素抽取,面向南海历史事件的要素抽取具有其领域特殊性:不关注省市县等各级地点,而更关注相关岛礁,且涉及岛礁名演变的问题;主体类型复杂,包括国际组织、国家及各级政府、各级单位、民间组织与个人等不同层次的主体;相比一般事件新增文书要素;相比一般事件中触发动词的抽取,仅关注主权宣示行为等具有立场倾
15、向的行为动词。这些不同也是本研究的出发点与意义所在。基于此,本文提出面向南海叙事的事件要素自动抽取方法如图2所示,各部分主要任务如下。图2 基于规则与深度学习的事件要素自动抽取方法Figure 2Automatic extraction of event elementsbased on rules and deep learning(1)数据获取与预处理。深入南海文献资料,通过数据清洗、分句、事件抽取等工作抽取出南海相关历史事件,形成历史事件数据集。(2)事件要素数据集构建。在标注规则的指导下人工标注出事件中各类型事件要素实例,并将标注结果转换为序列标注格式,构建事件要素数据集。(3)事件要
16、素最佳抽取模型构建。基于规则约束的事件要素抽取方法存在很大的泛化局限性,不如机器学习与深度学习的效果好,但在某些特定语法规则下可以保证百分百的准确率。在南海历史事件中,各事件要素的出现位置及依赖关系等特征存在一定规律,如时间被记载于事件的最开始、行为通常作用于上下文的某一主体或地点等,具有特征学习的基础;事件中存在岛礁名及其别名、具体文书等事件要素实例,也具备基于规则抽取的条件。因此,可以结合规则约束的方法优化深度学习模型的抽取效果,主要工作分为三步:构建事件要素自动抽取规则;构建基于深度学习的自动抽取模型;基于规则对抽取模型的效果进行局部优化。(4)基于最佳模型的事件要素抽取。将抽取模型应用至泛化历史事件文本,自动抽取出各类型事件要素实例,算法实现的伪代码见图3。图3 事件要素自动抽取算法实现过程Figure 3 Automatic extraction of event elements algorithm implementation process表1 事件要素划分规则说明Table 1 Description of event elements division rules事