1、35 2023年2月 第 2 期(第36卷 总第307期)月刊电信工程技术与标准化开 发 与 研 究不良关键词知识图谱构建技术研究戴晶1,杜刚2,王红雨2,张晨2,杜雪涛2(1 中国移动通信集团有限公司,北京 100053;2 中国移动通信集团设计院有限公司,北京 100080)摘 要 为拦截不良文本信息,策略专员定制了大量关键词组合策略。策略中的关键词蕴含了丰富的不良文本特征知识,这些知识零散地分散在数千条策略中,缺乏整体性和系统性,不能进行有效的二次利用。本文研究了不良关键词知识图谱构建方法,将关键词组合策略形成知识图谱,提供不良文本特征知识高效查询能力,方便线下大数据分析使用,具有实际应
2、用价值。关键词 知识图谱;关键词组合策略;不良文本特征中图分类号 TN918 文献标识码 A 文章编号 1008-5599(2023)02-0035-05收稿日期:2022-05-11不良文本信息干扰用户正常使用文本消息业务,甚至会带来用户的财产损失,导致用户投诉,造成不良社会影响。因此,治理不良信息,对净化用户通信环境和维护清朗网络空间具有重要现实意义。关键词组合策略是治理不良文本信息最常用的技术手段。策略专员通过审阅大量不良文本信息,总结不良文本特征,提炼不良关键词,并使用“与”、“或”逻辑关系构成关键词组合策略,如策略“(充值|茺值)&(注册)”,可以拦截包含“充值”或“茺值”且包含“注
3、册”的垃圾文本信息。由此可知,关键词组合策略中蕴含着丰富的不良文本特征知识。然而,这些知识分布零散,缺乏系统性,不利于不良文本特征知识的共享和再利用。首先关键词组合策略属于重要生产数据,具有保密性,不宜直接对外共享;其次关键词组合策略本身无法直接被深度学习等线下大数据分析方法使用。对此,本文以系统性挖掘和梳理关键词组合策略蕴含的不良文本特征知识为出发点,深入研究了不良关键词知识图谱构建方法,并列举了不良关键词知识图谱应用场景和应用价值。1 不良关键词知识图谱知识图谱的概念首先由谷歌公司提出,定义为一种用于增强谷歌搜索引擎功能的知识库。知识图谱的基本组成单位是“实体-关系-实体”的三元组,实体之
4、间通过关系相连,构成图形式的语义知识库。实体相当于图中的节点,连接两个实体的边就是这两个实体之间的关系。通过挖掘关键词组合策略中蕴含的知识可构成不良关键词知识图谱。其中,关键词作为实体,关键词之间的关系作为连接实体之间的边。不良关键词知识图谱中的关系具体可以分为引申关系和替代关系。DOI:10.13992/ki.tetas.2023.02.00736 2023年2月 第 2 期(第36卷 总第307期)月刊电信工程技术与标准化开 发 与 研 究如果关键词 A 为主题词,关键词 B 为主题词 A 下的进一步引申,则关键词 A、B 之间存在引申关系,方向由 A 指向 B。如“刷单”这个主题下,“日
5、赚”就是对刷单主题的进一步引申。如果关键词 A 与关键词 B 经常在同一上下文中出现,则二者存在相互替代关系。可直接将两个具有替代关系的关键词相连。如“充值”与“首充”这两个词经常以诱导用户充钱的含义出现在不良文本信息中,二者存在替代关系。在替代关系中,有一种特殊的关系称为变体关系,如“茺值”为“充值”的变体词,二者为变体关系,代表相同的含义。变体词在不良文本信息中极为常见,通常由不法分子编造,用来逃避监控系统的审查。2 不良关键词知识图谱构建方法如图 1 所示,本文提出的不良关键词知识图谱构建方法主要分为基础知识图谱构建、替代关系计算和引申关系计算 3 个步骤,下面分别说明各个步骤的详细过程
6、。2.1 基础知识图谱构建构建不良关键词知识图谱的第 1 步是根据关键词组合策略预先构建若干基础知识图谱,后续将在此基础上计算替代关系与引申关系。本文重点介绍 3 个最重要的基础知识图谱,同音知识图谱、形近知识图谱和语义知识图谱。2.1.1 同音知识图谱一些存在变体关系的关键词可能发音完全相同,如“充值”、“茺值”和“珫值”。故考虑构建同音知识图谱,以便进行变体关系的查询。构建同音知识图谱的方法比较简单,首先将策略中所有关键词转化为拼音,再将拼音相同的关键词聚合在一起(不考虑拼音的声调),即可得到同音知识图谱。具体的聚合方法可以有两种,如图 2 所示。一种是引入拼音和关键词两种节点,所有关键词
7、节点都与对应的拼音节点相连。另一种是只引入关键词一种节点,选择其中一个关键词为中心节点,其它节点与其相连。可以结合一些实际的文本数据,如垃圾短信数据来统计关键词聚类中出现频次最高的词,从而确定中心节点。通过同音知识图谱,可以方便地从某个关键词快速查询与其同音的所有关键词,有利于线下大数据分析时,进行快速发音推理。2.1.2 形近知识图谱一些存在变体关系的关键词还可能采用了形近字进行替代,如“充值”和“充真”,其中的“值”和“真”互为形近字。故考虑构建形近知识图谱便于形近变体关策略及不良文本数据结束基础知识图谱构建替代关系计算引申关系计算图1 不良关键词知识图谱构建步骤示意图充值珫值茺值变体变体
8、聚合方式1chong zhi珫值变体变体充值变体茺值聚合方式2图2 同音关键词聚合方式示意图37 2023年2月 第 2 期(第36卷 总第307期)月刊电信工程技术与标准化开 发 与 研 究键词识别。构建形近知识图谱需要对关键词进行形近聚类,即比较两个关键词之间的字形相似度。可使用基于字形类输入法和汉字笔顺的方法进行比较。字形类输入法如“五笔”和“四角号码”等输入法将汉字的字形信息进行了编码,可将汉字转换为编码序列后再对编码序列进行比较。基于汉字笔顺的方法预先获取汉字的笔顺信息,将汉字转换为笔顺序列后再对笔顺序列进行比较。无论是基于输入法编码还是汉字笔顺的方法,最终都归结为两个序列的比较问题
9、。计算两个序列相似度方法有很多,如编辑距离法、最长公共子串法和 Jaccard相似度算法等。综上所述,可通过将关键词转换为特定的编码序列,并使用文本序列相似度计算方法来获取两个关键词的相似度。若两个关键词相似度大于一定值,则这两个关键词具有形近关系,并可用类似于同音知识图谱中确定中心节点的方法确定形近知识图谱的中心节点。2.1.3 语义知识图谱语义知识图谱描述了关键词之间的语义相似性。具体来说,其描述了两个关键词是否在相似的上下文中出现。语义知识图谱可以分为通用和专用两类。业内比较流行的通用语义知识图谱有 WordNet,可以利用通用语义知识图谱查找常用词语间的语义关系。专业语义知识图谱面向特
10、定领域,相比于通用语义知识图谱在特定专业下表现更好。在不良文本信息治理的背景下,专业语义知识图谱特指不良语义知识图谱,可利用 Word2Vec 模型计算语义相关性。Word2Vec 是一种无监督的词向量训练方法,利用此模型,可将词语映射为一个固定维度的词向量。当两个关键词的向量余弦相似度接近 1 时,则表示两个关键词经常在相同上下文中出现;接近于 0 时,表示两个关键词语义差异较大。不良语义知识图谱构建过程有如下几步。(1)提取策略中所有的关键词形成关键词词典。在构建词典时直接略去长度小于两个字的词和不包含中文的词。(2)搜集包含词典中关键词的不良信息,作为训练Word2Vec 的文本素材。为
11、使素材更加丰富,可使用互联网搜索引擎搜索相应关键词,将返回结果中的文章作为文本素材。(3)对文本素材进行分词,得到可用于训练 Word2Vec模型的训练数据。由于策略中定义的很多关键词可能无法被常规分词软件正确分词,故需要将关键词词典以自定义词典的方式加入到分词过程中,以保证分词的正确性。(4)训练 Word2Vec 模型,构建不良语义知识图谱。使用余弦相似度计算词典中的关键词之间是否语义相关。当相似度达到指定阈值后,可在两个关键词对应的节点间添加一条边。2.2 替代关系计算替代关系有普通替代关系和变体替代关系两种。实践中,应先计算变体替代关系构成变体知识图谱,再计算普通替代关系。2.2.1
12、变体替代关系一些策略中存在大量关键词变体,本体词与各变体词之间互为替代关系,例如策略“(充值|茺值|珫值)”。故可挖掘策略关键词中的变体关系,并依据变体关系将变体词归一化为本体词。针对每一条关键词组合策略,可以通过如下步骤完成变体关系计算。(1)检查策略中有无“或”逻辑,若无则直接停止。(2)将策略中每个“或”逻辑中的关键词两两组合,若组合在同音知识图谱或形近知识图谱中可以找到关联关系,则两个关键词存在变体关系。(3)统计“或”逻辑中词语在累积不良文本数据中的词频,选择词频最高的词语作为本体,以本体为中心将知识图谱调整为星型结构的有向图。2.2.2 一般替代关系通常情况下可以从关键词组合策略的
13、“或”逻辑中直接提取替代关系。如策略“(充值|首充)&(注册)”中,“充值”和“首充”属于相互替代关系。然而,实际策略中,38 2023年2月 第 2 期(第36卷 总第307期)月刊电信工程技术与标准化开 发 与 研 究有些“或”逻辑中定义的关键词并不严格保证一定存在替代关系,故需要算法对不存在替代关系的关键词进行剔除。具体计算过程如下。(1)检查策略中有无“或”逻辑,没有则停止。(2)若存在“或”逻辑,则借助变体知识图谱将“或”逻辑中的关键词变体进行归一化。若两个词归一化后为同一本体词,则剔除。(3)若“或”逻辑中的两个关键词在语义知识图谱中存在关联关系,则两个关键词存在替代关系。2.3
14、引申关系计算一般存在“与”逻辑的关键词组合策略中一些关键词比较重要,直接奠定了整个策略所识别不良文本信息的主题。另外一些关键词则起到辅助作用,将主题细化,使策略达到较高的识别精准度。如策略“(刷单&日赚&微信)”,其中“刷单”为主题词,“日赚”是在“刷单”这个基础上引申出的与“刷单”相关的词,而“微信”可以在各种类型的不良文本中出现,并不属于“刷单”的引申词。计算引申关系前,可先通过策略的“与”逻辑构建关联知识图谱。关联关系的含义指存在“与”逻辑关系的关键词必须同时在不良文本信息中出现。关联关键词知识图谱具体构建方法如下。(1)检查策略有无“与”逻辑,若无,则停止;若有,则借助变体知识图谱将包
15、含“与”逻辑策略中的所有关键词进行归一化。(2)对于归一化后的每条策略,若存在“或”逻辑,则将“或”逻辑进行拆分,转换成若干条仅包含“与”逻辑的策略,然后提取其中的关键词进行两两组合,将组合加入到组合集 S 中。(3)统计组合集 S 中每个关键词出现的频次,生成键为关键词,值为该关键词在组合集 S 中出现频次的字典,记为 D。(4)对于组合集 S 中的每个组合,以在字典 D 中值小的关键词(即在组合集 S 中出现的频次低)作为中心节点,指向在字典 D 中值大的关键词。通过上述步骤可构建关联知识图谱。引申关系可通过对关联知识图谱剪枝得到,即将在字典 D 中出现频次高于设定阈值的关键词及关联边去掉
16、,并将剪枝后的孤立节点去掉,此步可将“微信”等高频词去掉。剪枝后的关联知识图谱,每条边即为引申关系。最后,可根据策略专员制定的不良信息主题,将对应关键词调整为中心节点。3 不良关键词知识图谱的应用不良关键词知识图谱中主要包含了不良关键词之间的替代关系和引申关系,策略专员可以通过其高效查询某一不良关键词的相关词语,提升策略制定效率。相对于关键词组合策略,不良关键词知识图谱更适合共享给外部单位分析使用。一方面关键词知识图谱不会直接暴露关键词组合策略信息;另一方面其包含了不良文本情景下关键词之间的关系,适用面更加广泛。此外,利用不良关键词知识图谱可以提高相关大数据分析和机器学习算法的效果。下面以不良关键词知识图谱在文本分类和文本聚类算法中的应用进行说明。3.1 文本分类当前比较流行的文本分类模型都是先将文本进行分词,再将文本中的词语转换为词嵌入向量,然后输入神经网络进行分类。在分词阶段,可先利用不良关键词知识图谱中的变体关系将不良文本中的变体还原为本体,也可利用替代关系将相应的词语进行归一化,从而减少了特征的变化范围,提高了敏感关键词特征出现的频次,有利于在后续的文本分类任务中被神经网络识别