1、收稿日期:20220714基金项目:国家社会科学基金一般项目“自引视角下学者研究兴趣的演化路径与迁移规律研究”(项目编号:20BTQ089)。作者简介:温芳芳(1984),女,副院长,副教授,博士,硕士生导师,研究方向:信息计量与科学评价。郑诗嘉(2000),女,硕士研究生,研究方向:信息计量与科学评价。信息计量与科学评价基于关联规则挖掘的多学科知识融合研究 以新冠肺炎研究领域为例温芳芳郑诗嘉(河南科技大学管理学院,河南 洛阳 471023)摘要:目的/意义 挖掘高强度关联学科,揭示多学科知识融合规律,有助于更好地把握和推动多学科知识融合。方法/过程 从 Web of Science 核心集获
2、取新冠肺炎主题论文,采用 Apriori 算法挖掘参考文献所属学科的频繁项集和强关联规则,揭示知识融合特征。以一项强关联规则为例,结合关键词聚类分析,识别该学科组合在知识融合后形成的热门主题。结果/结论 新冠肺炎研究的知识来源非常广泛,跨学科知识融合十分普遍,关联规则挖掘提供了一种识别和预测强关联学科组合及其知识融合趋势的新方案。关键词:知识融合;学科交叉;关联规则挖掘;Apriori 算法DOI:103969/jissn10080821202303015中图分类号G203文献标识码A文章编号10080821(2023)03014809Study on Multidisciplinary Kn
3、owledge Fusion Based on Association ule Mining Taking the esearch Field of COVID19 as an ExampleWen FangfangZheng Shijia(School of Management,Henan University of Science and Technology,Luoyang 471023,China)Abstract:Purpose/Significance Mining highintensity related disciplines and revealing the law o
4、f multidisciplinaryknowledge fusion will help to better grasp and promote multidisciplinary knowledge fusion Methods/Process Based onCOVID19 papers obtained from Web of Science,this study used the Apriori algorithm to mine the association rules of thereference subject category transaction set,and ob
5、tained frequent itemsets and strong association rules to analyze and predictthe combination of strongly related disciplines and their knowledge fusion characteristics in the field of COVID19 Takingone of the strong association rules as an example,combined with keyword clustering analysis,this paper
6、further identifiedthe hot topics formed by the multidisciplinary combination after knowledge fusion esults/Conclusions The knowledgesources of COVID19 research are very extensive,and interdisciplinary knowledge fusion is very common Association rulemining applied to citation analysis provides a new
7、solution for predicting and identifying strongly related subject combinationsand their knowledge fusion trendsKey words:knowledge fusion;interdisciplinary;association rule mining;Apriori algorithm新冠病毒全球肆虐,全世界的科学家都在开展应对这一重大公共卫生危机的相关研究。鉴于新冠肺炎疫情的突发性、复杂性和多变性,单一学科无力应对,需要多学科的交叉与融合。挖掘新冠肺炎研究领域的强关联性学科组合,并揭示其
8、知识融合特征,有助于科学家更好地开展跨学科研究,通过广泛的知识融合以便有效地应对新冠肺炎疫情带来的挑战。跨学科研究是不同学科领域之间知识的相8412023 年 3 月第 43 卷第 3 期现 代 情 报Journal of Modern InformationMar,2023Vol.43No.3互影响和渗透,从知识来源的多学科角度可以展示这一属性,一篇论文中参考文献的学科分布可以在一定程度上反映该论文吸收和整合来自不同学科知识的程度,因此,引文分析成为考察多学科知识融合的常用方法1。在传统的共被引分析以外,关联规则作为数据挖掘的经典模型,提供了考察多学科知识融合的一种新思路。基于新冠病毒论文所
9、包含的参考文献及其来源学科信息,通过关联规则算法计算多个学科共现的概率,据此挖掘出强关联性学科组合,在此基础之上结合关键词聚类方法揭示多学科知识融合所形成的热门主题,从而为考察新冠病毒研究的跨学科性以及该领域的多学科知识融合的规律与趋向,开拓出一种新的分析维度。1文献综述1)关联规则挖掘在文献计量学中的应用。关联规则挖掘是从大量数据中发现事物的特征或数据之间频繁出现的相互依赖关系和关联关系。邱均平等2 基于 AltmetricTOP 榜文献,采用 KMeans 聚类及 Apriori 算法的关联规则探讨了不同情况下的文献传播特征。阮光册等3 利用 Apriori 算法提取高关联主题词集,通过对
10、这些关联规则进行共词分析,挖掘出文献之间的知识关联。Li M N4 基于关联规则挖掘将共词分析与突发术语检测相结合,通过挖掘热门关键词与突发术语间的联系,探索技术预见相关研究的前沿和趋势。屈文建等5 运用双聚类分析方法进行作者与主题双向聚类,再运用关联规则挖掘算法,揭示了核心作者与前沿主题之间的关联关系。李海林等6 运用 Apriori 算法探究期刊论文引用过程中隐藏的关联规则。Xu M 等7 综合采用 LDA 模型和关联规则挖掘进行了新兴主题检测。周磊等8 从专利 IPC 规模和专利前向引用两个角度分别构建加权关联规则,建立基于加权关联规则的技术融合探测方法。2)基于引文分析方法的知识融合研
11、究。理论发展的知识基础很大程度上是通过学术研究中所引用的文献来反映的。在一定时期内,一个学科领域被已发表的论文所反复引用的文献代表了该学科相对活跃的知识成分9。参考文献的多样性从逻辑上来说是知识整合的最好测度,研究领域的引文表达了其他领域的知识和信息输入该领域的情况,可以很好地测度该领域知识与信息的交叉融合情况10。黄颖等11 指出,知识融合度是跨学科的核心特征,揭示了相关跨学科研究的内在知识基础,参考文献视角下的跨学科测度是当前跨学科测度的主要思路。Porter A L 等12 基于论文参考文献学科分布的“知识融合度(Integration)”指标,结合“专业度(Specialization
12、)”指标对研究人员的“跨学科度”进行测度和分析。李长玲等团队开展了跨学科知识组合识别方法的系列研究,从跨学科引用13、弱引文关系14 等多个维度进行跨学科潜在知识组合以及知识生产点识别。3)研究述评与本文的创新之处。当前,学科交叉与知识融合研究的重心正在从单纯地测度学科交叉度和知识融合度转向预测和识别潜在的学科交叉与知识融合。关联规则是数据挖掘领域的经典模型,在预测实体之间关联性方面具有重要价值,可以作为探索知识融合趋势的有效工具。关联规则挖掘在文献计量学已经有所应用,但尚未用于考察多学科知识融合问题。学科交叉与知识融合的主流研究仍是以共引、共被引等传统的引文分析,再结合主题模型、社会网络分析
13、及可视化等手段来实现,通过计算学科两两之间的相似性与关联度来考察学科交叉和知识融合现象,研究维度和方法有待进一步革新。鉴于此,本文以国际期刊上发表的新冠肺炎主题论文为对象,依据其参考文献的学科分布,采用关联规则挖掘方法考察新冠病毒研究领域的多学科知识融合特征。相较于以往研究,本文的研究重点和创新之处主要包括:一是采用关联规则挖掘方法对引文数据进行处理,计算多学科(组合)的共现概率,而不是仅仅测度学科两两之间的关联性。二是挖掘具有强关联性的学科组合,建立起知识输入与知识输出的关联,预测知识融合的趋向,识别潜在的知识生长点。2数据与方法2.1数据来源从 Web of Science(WoS)的核心
14、集合(SCIE/SSCI/AHCI)中获取发文及引文数据,世界卫生组织和国际病毒分类委员会分别将新冠病毒命名为“COVID19”和“SASCoV2”,本文以此为检索词,采用“COVID19 or SASCoV2”进行主9412023 年 3 月第 43 卷第 3 期基于关联规则挖掘的多学科知识融合研究wwwxdqbnetMar,2023Vol.43No.3题检索,文献类型限定为“Article”,文献发表的时间区间不作限制。检索时间是 2022 年 2 月 24日,共获得检索记录115 267篇,将其题录信息以全记录形式下载并汇总。经初步筛选,其中 516 篇论文不提供参考文献信息,将其予以剔
15、除,最终获得目标文献114 751篇,从目标文献的 C 字段中提取出4 483 881篇参考文献,将其中著录信息不完整的情况予以剔除,保留4 365 012篇。科学研究的过程,参考文献和目标文献分别被视为知识输入和知识输出,其中,参考文献所对应的学科被称为知识来源学科。为确定参考文献的归属学科,从JC(期刊引证报告)中下载期刊目录。期刊论文类的参考文献能够根据其来源期刊判断学科归属,而其他类型的参考文献,如报纸、专著、报告等,因没有统一的学科分类标准而难以判定其所属学科。据统计,样本集合中期刊论文类的参考文献共3 555 637篇,其他类型的参考文献仅占全部参考文献的 18.54%,本文只将具
16、有确切学科来源的期刊论文类参考文献纳入计量分析。2.2数据处理WoS 核心集共涵盖 252 个学科,目标文献的归属学科根据其题录信息中 WC 字段判定,据统计,新冠主题论文涉及全部 252 个学科。参考文献的学科归属还需结合每篇文献来源期刊的学科类别来判定,从 JC 数据库获得期刊的全称、缩写和学科类别,部分期刊信息还需要访问其主页进行手工补充,最后建立起“期刊全称期刊缩写所属学科类别对照表”。基于该对照表,利用 MySQL 数据库将所下载的参考文献根据其来源期刊映射至 1 个或多个 WoS 学科类别中,若一篇参考文献的来源期刊同时归属多个学科,相应的该篇参考文献被分别计入多个学科。共得到4 838 020条映射记录,分布在113 779篇目标文献中,成功匹配的参考文献占样本集合中参考文献总量的 87.87%,参考文献涉及 229 个学科。2.3关联规则挖掘方法关联规则挖掘是当前数据挖掘的主要模式之一,是指在给定数据集中查找存在于项目集合之间的频繁模式、相关性或因果结构,可以发现隐藏在数据之中不易被发现,甚至与人的意识相违背的关联事件15。本文采用经典的关联规则 Apriori 算法进