收藏 分享(赏)

目标依赖的新闻事件识别_张甜甜.pdf

上传人:哎呦****中 文档编号:2569299 上传时间:2023-07-24 格式:PDF 页数:13 大小:2.07MB
下载 相关 举报
目标依赖的新闻事件识别_张甜甜.pdf_第1页
第1页 / 共13页
目标依赖的新闻事件识别_张甜甜.pdf_第2页
第2页 / 共13页
目标依赖的新闻事件识别_张甜甜.pdf_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、文章编号:1000-5641(2023)02-0060-13目标依赖的新闻事件识别张甜甜,兰曼(华东师范大学 计算机科学与技术学院,上海200062)摘要:海量新闻文本中往往涉及多个实体,并蕴含复杂多样的事件.为了挖掘这些实体、事件信息,先前的以事件为中心的事件抽取方法大多先检测事件,再抽取事件论元.受限于触发词和事件识别,该方法无法应用于真实工业场景下的新闻事件抽取.考虑到命名实体识别(named entity recognition,NER)的性能达到 90%以上,提出了以目标实体为视角的事件抽取任务目标依赖的事件识别(target-dependent eventdetection,TDE

2、D),旨在抽取出实体并识别其对应的事件.基于该任务,提出了先抽取实体再识别目标级事件类型的两阶段模型框架.该模型融合了事件关键词和句法依存距离特征,能够学习目标依赖的上下文信息.在构建好的真实中文金融数据集上的实验结果表明,该模型抽取性能较佳,即使在句中存在多个实体或事件的复杂情形下也能取得很好的性能表现.关键词:目标依赖;事件识别;实体识别;事件关键词;句法依存距离中图分类号:TP391文献标志码:ADOI:10.3969/j.issn.1000-5641.2023.02.008Target-dependent event detection from newsZHANG Tiantian,

3、LAN Man(School of Computer Science and Technology,East China Normal University,Shanghai200062,China)Abstract:In real-world scenarios,various events in the news are not only too nuanced and complex todistinguish,but also involve multiple entities.To address these problems,previous event-centric metho

4、dsare designed to detect events first and then extract arguments,relying on imperfect performance for eventtrigger detection;this process,however,is unfit to deal with the sheer volume of news in the real world.Given that the performance of named entity recognition(NER)is satisfactory,we shift our p

5、erspectivefrom an event-centric to a target-centric view.This paper proposes a new task:target-dependent eventdetection(TDED),which aims to extract target entities and detect their corresponding events.We alsopropose a semantic and syntactic aware approach to support thousands of target entity extra

6、ctions firstand subsequently the detection of dozens of event types;this approach can be applied to data from massivecorporations.Experimental results on a real-world Chinese financial dataset demonstrated that our modeloutperformed previous methods,particularly in complex scenarios.Keywords:target-

7、dependent;event detection;entity recognition;event keywords;syntactic dependencydistance 0 引言互联网海量新闻资讯中蕴含着诸多事件,挖掘新闻中的潜在事件已经成为自然语言处理领域学术界和工业界的研究热点.事件抽取任务旨在检测新闻文本中事件触发词、识别事件类型并提取事件 收稿日期:2021-09-28通信作者:兰曼,女,教授,博士生导师.研究方向为自然语言处理.E-mail: 第 2 期华东师范大学学报(自然科学版)No.22023 年 3 月Journal of East China Normal Univ

8、ersity(Natural Science)Mar.2023论元,其相关研究已经取得了很大的进展1-5.与这类以事件为中心的抽取任务不同,以目标实体为视角识别新闻中特定实体及其参与的事件类型,已经成为工业界的普遍需求,这对于工业界知识库构建、智能决策和风险监控预警等都至关重要.因此,本文提出了一项新的事件抽取任务:目标依赖的事件识别,旨在抽取出特定目标实体并识别其参与的事件类型.如图 1(a)所示的金融新闻,任务目标是抽取得到 3 个目标实体:祥鹏商贸有限公司、聚美优品,以及它们各自的事件类型.可以看到,它们所参与的事件完全不同,其中“祥鹏商贸有限公司”参与了侵权行为、违法违规事件,而“聚美

9、优品”未参与任何事件.事件 1:侵权行为事件 2:违法违规一家名为 的供应商通过伪造品牌授权书和报关单,在聚美优品等多个电商平台销售假冒服装和手表。祥鹏商贸有限公司祥鹏商贸有限公司祥鹏商贸有限公司无事件祥鹏商贸有限公司事件 1:Transaction:Transfer-OwnershipArtifactArtifactBuyerBuyerChief executive Andrew Harris said the company was likely to abandonplans to acquire a hotel in Sydneys Kings Cross red light dist

10、rict andacquire another property three times the size in a better location.事件 2:Transaction:Transfer-Ownership事件抽取任务:事件抽取任务:目标依赖的事件识别:目标依赖的事件识别:事件类型事件类型事件类型事件类型事件角色事件角色事件论元事件论元目标实体目标实体触发词触发词侵权行为伪造侵权方违法违规侵权行为违法违规假冒违法方聚美优品(a)FinNewsCN 数据集的金融新闻示例Transaction:Transfer-OwnershipTransaction:Transfer-Owners

11、hipacquireBuyerArtifactBuyerArtifactacquireAndrew HarrisAndrew HarrisAndrew HarrishotelhotelpropertypropertyAcquisitionEquity changeEquity change(b)ACE 2005 英文数据集示例注:事件触发词加粗表示;事件中的目标实体用红色斜体下划线表示;未参与事件的实体用绿色表示.图 1 事件抽取任务和本文任务在 FinNewsCN 和 ACE 2005 两个样例上的抽取结果Fig.1 Two examples from FinNewsCN and ACE 2

12、005 and the extraction results for event extraction and target-dependent event detection task 目标依赖的事件识别任务定义来源于工业界真实场景需求.工业界往往更关注目标实体及其参与的细粒度事件类型.具体来说,工业场景中需要高效、准确地从海量新闻数据中挖掘数以万计的事件主体信息,进而直接对海量实体进行事件评估和潜在事件挖掘.如在股票交易中,相关证券从业者和投资者对相关公司进行调研时,目标公司涉及的风险或机会事件标签中包含了最主要的信息,可以快速直接地帮助从业者对公司进行宏观评估.此时从业者更关注于相关公司

13、有哪些事件标签,或该公司是否含有某种事件标签,而无需关心具体事件的详细信息.另外,目前新闻事件抽取的研究工作着重于封闭域下的事件识别,即人工预先定义事件类型和模式.显然,细粒度事件类型的定义依赖于领域专家知识,每个事件专属事件模式的进一步定义更需要从大量领域数据中挖掘得到,耗时耗力,不适用于上述工业场景中细粒度的事件抽取任务,更不能泛化到开放域事件抽取.为了区分该任务及传统事件抽取任务,本文对各自任务定义作了如下的总结.(1)事件抽取:通过检测事件触发词来识别事件,并基于事件类型和预定义的事件模式抽取事件论元.一般来说,包含 2 个子任务:事件识别,检测事件触发词并根据触发词分类事件类型;事件

14、论元抽取,已知事件类型,从文本中抽取得到事件论元及对应论元角色.(2)目标依赖的事件识别:抽取出文本中的目标实体,并针对每个目标实体识别其对应的(目标依赖的)事件类型.可以划分为目标实体抽取和目标级事件识别这 2 个子任务.对比来看,一方面,目标依赖的事件识别是实体为中心的任务.与以事件为中心的事件抽取任务不同,该任务更关注实体及其事件,而不关注没有涉及任何实体的事件.图 1(a)所示,事件抽取任务抽取得到 2 个事件(2 个触发词)和论元,但是忽略了实体“聚美优品”;而本文任务抽取得到所有实体和它们的事件,即使“聚美优品”未参与任何事件.另一方面,目标依赖的事件抽取任务在抽取并匹配第 2 期

15、张甜甜,等:目标依赖的新闻事件识别61事件和实体上更为灵活.事件抽取任务更依赖于预定义好的事件模式,人工定义的事件模式制定费时费力,灵活度差,且详细的事件论元在上述工业场景下并非必要.以图 1(b)ACE(automatic contentextraction)20056中的一条数据为例,事件抽取任务目标是抽取得到 2 个相同事件(2 个相同的触发词),并且这 2 个事件均包含“Andrew Harris”,承担 Buyer 角色;本文任务则根据事件类型定义,最终获得 3 个实体事件对.同时,该事件中 Artifact 角色对于上面所述的真实场景是不必要的.数据集方面,大多数事件抽取工作是在

16、ACE 20056英文数据集上进行的,而中文数据集的事件抽取研究较少.Zheng 等人7构建了中文金融公告数据集,但事件数量较少,只包含 5 种常见的金融事件.真实场景下,各领域都存在种类繁多的事件类型,新闻文本也常涉及多个实体、多种事件.最近研究人员构建的中文金融新闻事件识别数据集8和大规模事件识别数据集9虽然蕴含了细粒度的事件类型,但相关研究仅关注句子级的事件识别,并不涉及实体级的事件检测.为了研究目标实体级的细粒度事件识别任务,本文构建了中文新闻的事件抽取数据集 FinNewsCN.不同于句子级的事件标注,本文的数据集侧重于目标依赖的事件识别,对句子中每个目标实体进行了相关事件的标注;且FinNewsCN 包含 52 种金融事件,是中文金融领域中事件类型数量最多的数据集;FinNewsCN 数据中多事件情况显著,是 ACE 2005 的 5 倍多.F1F1F1绝大多数事件抽取的相关研究都采用先进行事件识别(event detection,ED)10-12,然后基于识别出的事件再抽取或匹配对应论元及角色3-4,13.然而,这种 ED 优先的方法在 ACE 2005 基准数据集上,即

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2