1、专 题数据分析与知识发现基于任务知识融合与文本数据增强的医学信息查询意图强度识别研究*赵一鸣1,2,3 潘沛2,3,4 毛进1,21(武汉大学信息资源研究中心 武汉 430072)2(武汉大学信息管理学院 武汉 430072)3(武汉大学大数据研究院 武汉 430072)4(武汉大学图书情报国家级实验教学示范中心 武汉 430072)摘要:【目的】为提高医学信息查询意图强度识别的精度并解决查询式词向量表征困难、标注数据集少等问题,设计一种基于任务知识融合与文本数据增强的医学信息查询意图强度识别方法。【方法】在文本数据增强方面,选取SimBERT模型,实现小样本数据集的文本数据增强;在文本表示方
2、面,利用医学信息查询式文本语料对BERT模型进行增量预训练,获得融合任务知识的MQ-BERT模型;在文本分类方面,在MQ-BERT后引入Bi-LSTM等模型进行分类任务,并对比文本数据增强前后的分类效果。【结果】融合任务知识的MQ-BERT的分类结果F-Score达到92.22%,超越了阿里巴巴团队提出的MC-BERT在同一任务数据集上的最佳结果(F-Score=87.5%);文本数据增强后,模型分类效果进一步提升,其中基于MQ-BERT和Bi-LSTM的模型获得最佳分类结果,F-Score为95.34%,相比MC-BERT提升了7.84个百分点。【局限】增量预训练过程的数据选择方法在未来可以
3、进一步优化。【结论】任务知识融合与文本数据增强能有效提高医学信息查询意图强度识别精度,针对不同强度的查询意图,应该对其查询结果采用不同的呈现方式,以提升医学信息检索系统的查询准确度,更好地满足用户的医学信息需求。关键词:医学信息查询 意图强度识别 文本数据增强 任务知识融合 BERT模型分类号:TP393 G250DOI:10.11925/infotech.2096-3467.2022.0919引用本文:赵一鸣,潘沛,毛进.基于任务知识融合与文本数据增强的医学信息查询意图强度识别研究 J.数据分析与知识发现,2023,7(2):38-47.(Zhao Yiming,Pan Pei,Mao Ji
4、n.Recognizing Intensity of Medical Query Intentions Based on Task Knowledge Fusion and Text Data EnhancementJ.Data Analysis and Knowledge Discovery,2023,7(2):38-47.)1 引 言近年来,公众的在线医学信息查询行为更加频繁1-2,在线医学信息检索系统如好大夫、丁香医生等积累了大量的医学信息查询式,这些查询式中往往蕴含着用户的查询意图,有利于帮助理解用户的需求,提升查询的效率。查询意图被定义为用户通通讯作者(Corresponding a
5、uthor):赵一鸣(Zhao Yiming),ORCID:0000-0001-8182-456X,E-mail:。*本文系国家自然科学基金项目(项目编号:71874130,72274146)和教育部人文社会科学研究项目(项目编号:18YJC870026)的研究成果之一。The work is supported by the National Natural Science Foundation of China(Grant No.71874130,72274146),the Ministry of Education Foundation on Humanities and Social
6、Sciences(Grant No.18YJC870026).过查询式而表达出来的信息需求3-4。参考该定义,本文将医学信息查询意图定义为用户通过查询式表达出来的医学信息需求。通过识别用户查询意图的强弱,可以理解不同需求层次下的医学信息查询意图及其对应的信息搜寻过程特征,为用户推荐更精确的查询结果,比如为强意图的查询式返回更直接的搜索结果,为弱意图的查询式返回可能符合用户潜在需求的多样性结果;并有利于完善信息搜寻理论、提升医学信息搜索引擎的检索效率以及优化用户体验。然而,当前医学信息查询意图强度识别研究存在以下三个方面的问题:(1)缺少面向医学信息查询式的预训练模型。(2)公开的医学信息查询意
7、图强度标注数据集极少,给自动化分类带来困难。(3)由于搜索引擎允许用户输入的查询式长度有限5,医学信息查询式一般为短文本,在信息有限的短文本中存在难以有效提取文本语义特征的问题,限制了用户查询意图强度识别精度的提高。针对以上问题,本文基于 BERT(Bidirectional Encoder Representations from Transformer)模型,设计一种基于任务知识融合与文本数据增强的医学信息 查 询 意 图 强 度 识 别 方 法,并 在 ChineseBLUE(Chinese Biomedical Language Understanding Evaluation)中的c
8、MedIC数据集上进行验证,最后与阿里巴巴研究团队在该数据集上的研究结果进行对比6。本文的研究贡献体现在:(1)通过使用任务相关的语料数据对 BERT模型进行增量训练,使其习得任务相关知识,在较低的资源和时间成本下获得融合任务知识的医学信息查询式预训练模型MQ-BERT(Medical-Query BERT),使其更好地表征医学信息查询式的词向量,以适应医学信息查询意图强度识别任务。(2)针对医学信息查询意图强度分类数据集标注数据少、低资源的问题,使用SimBERT进行文本数据增强,在一定程度上解决医学查询式文本的数据不足问题,减少人工标注工作量,进而提高研究效率。(3)在使用MQ-BERT进
9、行文本表示后,针对查询式信息有限的问题,采用能够有效提取语义信息的神经网络结构,提升识别准确度。2 相关研究2.1查询意图强度的分类体系学界从不同维度出发构建了查询意图的分类体系,如Broder围绕用户查询目标,将查询意图分为信息类、导航类和事务类三类3;Segev等基于主题进行 分 类,主 要 采 用 了 开 放 式 目 录 分 类 体 系7;Kanhabua等根据查询式包含的时间特征,将其分为时间敏感型和时间不敏感型8;也有学者直接根据已有数据集定义查询意图的类别9-10。本文主要从查询意图的强弱程度出发,构建意图强度分类体系,以探索面向查询意图强度的自动分类方法。查询意图强度是指用户通过
10、查询式表达出来的信息需求的明确程度。根据查询意图的强弱程度,可以将用户的查询式分为强意图、弱意图和无意图三类。强查询意图指查询式具有医学查询意图且含义明确单一,弱查询意图指查询式具有医学查询意图但存在歧义,而没有医学查询意图或没有任何意图指向的查询式则定义为无查询意图。识别用户的查询意图强度,对于提升检索效率与优化查询结果具有积极意义,代表性的工作包括:Yang等围绕意图强度提出了一个意图函数,用于预测用户潜在的下一条查询式出现的概率,从而为用户更精确地进行查询推荐11;Chen等在其提出的AIR意图预测系统中引入意图强度,协助模型获取更精确的查询结果12。2.2查询意图分类方法查询意图分类的
11、方法主要包括三种:(1)基于专家规则制定与模板匹配的方法,由专家基于领域知识,制定相应的分类规则,从而判断查询式所属的类别。如张璐等通过对用户在健康信息搜寻日志中反映出来的意图进行编码,获得识别、学习、评估等7种意图类型2。这类方法无需大量训练数据,但消耗的时间成本、人力成本非常高,且单一领域的成果难以拓展到其他领域。(2)基于机器学习的方法,通过特征工程的方式从查询式文本中提取特征,将特征输入支持向量机等机器学习分类模型,执行分类任务。王瑞雪等针38总第 74 期 2023 年 第 2 期Data Analysis and Knowledge Discovery过查询式而表达出来的信息需求3
12、-4。参考该定义,本文将医学信息查询意图定义为用户通过查询式表达出来的医学信息需求。通过识别用户查询意图的强弱,可以理解不同需求层次下的医学信息查询意图及其对应的信息搜寻过程特征,为用户推荐更精确的查询结果,比如为强意图的查询式返回更直接的搜索结果,为弱意图的查询式返回可能符合用户潜在需求的多样性结果;并有利于完善信息搜寻理论、提升医学信息搜索引擎的检索效率以及优化用户体验。然而,当前医学信息查询意图强度识别研究存在以下三个方面的问题:(1)缺少面向医学信息查询式的预训练模型。(2)公开的医学信息查询意图强度标注数据集极少,给自动化分类带来困难。(3)由于搜索引擎允许用户输入的查询式长度有限5
13、,医学信息查询式一般为短文本,在信息有限的短文本中存在难以有效提取文本语义特征的问题,限制了用户查询意图强度识别精度的提高。针对以上问题,本文基于 BERT(Bidirectional Encoder Representations from Transformer)模型,设计一种基于任务知识融合与文本数据增强的医学信息 查 询 意 图 强 度 识 别 方 法,并 在 ChineseBLUE(Chinese Biomedical Language Understanding Evaluation)中的cMedIC数据集上进行验证,最后与阿里巴巴研究团队在该数据集上的研究结果进行对比6。本文的研
14、究贡献体现在:(1)通过使用任务相关的语料数据对 BERT模型进行增量训练,使其习得任务相关知识,在较低的资源和时间成本下获得融合任务知识的医学信息查询式预训练模型MQ-BERT(Medical-Query BERT),使其更好地表征医学信息查询式的词向量,以适应医学信息查询意图强度识别任务。(2)针对医学信息查询意图强度分类数据集标注数据少、低资源的问题,使用SimBERT进行文本数据增强,在一定程度上解决医学查询式文本的数据不足问题,减少人工标注工作量,进而提高研究效率。(3)在使用MQ-BERT进行文本表示后,针对查询式信息有限的问题,采用能够有效提取语义信息的神经网络结构,提升识别准确
15、度。2 相关研究2.1查询意图强度的分类体系学界从不同维度出发构建了查询意图的分类体系,如Broder围绕用户查询目标,将查询意图分为信息类、导航类和事务类三类3;Segev等基于主题进行 分 类,主 要 采 用 了 开 放 式 目 录 分 类 体 系7;Kanhabua等根据查询式包含的时间特征,将其分为时间敏感型和时间不敏感型8;也有学者直接根据已有数据集定义查询意图的类别9-10。本文主要从查询意图的强弱程度出发,构建意图强度分类体系,以探索面向查询意图强度的自动分类方法。查询意图强度是指用户通过查询式表达出来的信息需求的明确程度。根据查询意图的强弱程度,可以将用户的查询式分为强意图、弱
16、意图和无意图三类。强查询意图指查询式具有医学查询意图且含义明确单一,弱查询意图指查询式具有医学查询意图但存在歧义,而没有医学查询意图或没有任何意图指向的查询式则定义为无查询意图。识别用户的查询意图强度,对于提升检索效率与优化查询结果具有积极意义,代表性的工作包括:Yang等围绕意图强度提出了一个意图函数,用于预测用户潜在的下一条查询式出现的概率,从而为用户更精确地进行查询推荐11;Chen等在其提出的AIR意图预测系统中引入意图强度,协助模型获取更精确的查询结果12。2.2查询意图分类方法查询意图分类的方法主要包括三种:(1)基于专家规则制定与模板匹配的方法,由专家基于领域知识,制定相应的分类规则,从而判断查询式所属的类别。如张璐等通过对用户在健康信息搜寻日志中反映出来的意图进行编码,获得识别、学习、评估等7种意图类型2。这类方法无需大量训练数据,但消耗的时间成本、人力成本非常高,且单一领域的成果难以拓展到其他领域。(2)基于机器学习的方法,通过特征工程的方式从查询式文本中提取特征,将特征输入支持向量机等机器学习分类模型,执行分类任务。王瑞雪等针39专 题数据分析与知识发现对学术查询式