1、2023 年1 月Jan2023DigitalTechnology&Application第 41 卷第 1 期Vol.41No.1数字技术与应用26中图分类号:G353.1文献标识码:A 文章编号:1007-9416(2023)01-0026-05DOI:10.19695/12-1369.2023.01.082010-2021 年国内文本挖掘的文献计量分析*川北医学院管理学院谭明亮蒋静本文以中国知网数据库收录的文本挖掘相关的研究文献作为研究对象,借助于知识可视化图谱分析工具CiteSpace 对研究文献进行多个维度的分析并以科学知识图谱的形式呈现,主要包括关键词分析、作者分析、研究机构分析和
2、研究趋势分析。本文通过文献计量分析发现,20102021 年的 12 年间,文本挖掘领域研究主题广泛,研究层次多样,研究人员数量众多,在不同时期有不同的研究重点。近年来,随着移动通信和互联网技术的快速发展和广泛普及,文本数据的规模呈现出急剧增长的趋势,主要包括研究报告、学术论文、电子邮件、网页、公司内部公告等。非结构化文本是非常重要的数据资源,为了更好地处理和使用这些数量庞大、结构多样的文本数据,文本挖掘技术随之而诞生。文本挖掘作为自然语言处理、机器学习和数据挖掘等多项技术的交叉研究领域,其研究热度也逐年提升。本文从中国知网数据库上获取文本挖掘领域的相关研究文献,基于文献计量法和 CiteSp
3、ace软件,主要从研究人员、研究机构、研究内容和研究趋势等多个维度,对收集到的文献数据进行全面综合的分析,以期为文本挖掘领域的研究人员提供一定的参考和借鉴。1 数据选取本文的研究数据来自于中国知网(CNKI)中文数据库,数据采集的检索条件设置如下:主题词设置为“文本挖掘”,研究文献的发表年份设置为 20102021 年。经过检索,共得到 4853 篇研究文献,其中包括了 2326篇学术期刊论文、2222 篇学位论文和 101 篇会议论文,剔除其中与本文研究相关度低的 204 篇文献(包括年鉴、报纸等),得到有效文献共计 4649 篇。本文将文献数据以 Refworks 的格式下载到本地文件夹
4、data for CiteSpace 下的 input 文件夹之中,文献输出信息以 txt 文本文件形式存储,txt 文件以 download_ 加数字命名,例如“download_1”,以 download_ 加数字的格式命名文件是为了后续能够更便捷地将 CNKI 文献导入 CiteSpace 数据库中。2 分析方法与分析工具2.1 分析方法文献计量法是一种定量分析方法,是以科技文献的各种外部特征作为研究对象,采用数学与统计学的方法来描述、评价和预测科学技术现状与发展趋势的一种方法,文献计量法的主要特点输出必是量化的信息内容1。文献计量法在科技评价、科研管理等领域有着非常广泛的应用,并在图书
5、情报领域的应用尤为广泛,如测定学科核心期刊、建设情报检索系统、编制领域主题词表等2。科学知识图谱分析法是文献计量学的一种重要分析方法,它将科研活动的主体(如研究人员、研究团队、研究机构等)或具有某种共同特征的学科领域群体作为研究对象,利用可视化技术描述知识资源及其载体,通过分析、挖掘和可视化知识及其之间的相互关系,将相关研究的发展进程和结构关系以直观图形的方式展现,收稿日期:2022-07-19*基金项目:四川省教育厅网络思想政治教育研究课题“疫情防控常态化形势下高校网络舆情智能监测模型与平台开发研究”(CJWSZ22-33);南充市社科研究“十四五”规划项目“基于在线健康社区文本大数据的慢病
6、智能服务研究”(NC22C220);四川省基层卫生事业发展研究中心资助项目“文本大数据驱动的慢性病健康教育知识服务研究”(SWFZ22-Q-58);川北医学院博士启动金项目“基于文本大数据语义分析的慢病智能服务研究”(CBY21-QD37)作者简介:谭明亮(1990),男,重庆垫江人,博士,讲师,研究方向:知识组织与智能服务。通讯作者:蒋静(2000),女,四川合江人,本科,研究方向:信息管理与信息系统。2023 年第 1 期27谭明亮蒋静:2010-2021 年国内文本挖掘的文献计量分析从而帮助研究者了解领域研究现状和前沿动态3。2.2 分析工具大数据背景下,文献信息的规模与日俱增,如何在这
7、些文献中找出值得深入阅读和作为参考的关键文献,挖掘学科前沿,找到相关领域的研究热点成为科研工作中的重要问题。为了有效地分析研究文献,各种绘制科学知识图谱的工具纷至沓来。其中,美国德雷塞尔大学陈超美教授开发的用于文献数据分析和可视化的 Java 应用程序 CiteSpace(其中文名为“引文空间”)成为了目前最流行的知识图谱绘制工具之一4。CiteSpace 以共引分析理论(Co-ciation)、寻径网络算法(PathFinder)、结构洞理论(Structural Holes)等理论作为基础,将某一特定领域的文献进行计量和可视化,以期探求出学科领域演化的关键路径和知识拐点,再结合绘制的一系列
8、可视化知识图谱,对学科领域内潜在的演化动力机制进行分析和对学科发展前沿进行探测5。目前,国内外的研究者们已经将 CiteSpace 软件广泛应用于图书情报、医疗卫生、经济管理等领域的文献计量与可视化分析中。3 文本挖掘研究文献的可视化图谱分析3.1 关键词分析本文对文本挖掘研究文献的关键词进行统计分析,筛选出 7 个频次大于 100 的关键词。除去本文选取的检索词“文本挖掘(频次为 2340)”,其余的关键词分别是“数据挖掘(频次为 242)”“情感分析(频次为 217)”“文本分类(频次为 204)”“主题模型(频次为 173)”“文本聚类(频次为 168)”“机器学习(频次为 102)”,
9、这些关键词代表了文本挖掘研究领域最核心的问题主要包括文本的分类、聚类、主题分析和情感分析等。本文利用 CiteSpace 软件绘制 2010-2021 年文本挖掘研究文献关键词的突现图谱,选取其中突变率最高的20 个关键词进行展示,如图 1 所示。2010 年,文本挖掘的研究主要集中于文本分类和本体;到 2011-2014 年之间,文本挖掘领域的研究热点逐渐向医学方面倾斜,逐步应用于西药、中成药以及中药方面;在 2014-2018 年这 5 年中,文本挖掘涉及的领域不断增多,在证候、网络评论、短文本、微博、图书馆等领域都有所涉及;在2018-2021 年间,文本挖掘的研究主要集中于人工智能、知
10、识图谱、情感分析、金融科技、政策评论、政策工具等方面。总体而言,文本挖掘研究领域的变化,与我国经济迅速发展和信息技术日新月异的时代背景紧密相关。Keywords Year Strength Begin End Top 20 Keywords with the Strongest Citation Bursts2010-2021文本分类本体西药中成药中药知识管理文本聚类证候网络评论短文本微博图书馆大数据人工智能知识图谱情感分析影响因素金融科技政策评价政策工具2010 20154.949.67.436.936.135.228.786.1356.495.515.216.166.985.354.945
11、.16.826.125.352011 20132010 20102011 20132011 20132011 20142012 20122012 20142013 20162014 20172015 20182014 20172017 20212018 20212018 20212018 20212019 20212020 20212020 20212020 202120102010201020102010201020102010201020102010201020102010201020102010201020102010 图 1 关键词突现图谱Fig.1 Keywords emergenc
12、e map本文利用 CiteSpace 软件对研究文献的关键词进行共词分析,结果如图 2 所示。在关键词共现图谱中分布着许多大小不一的圆圈,圆圈的大小代表着关键词的频次,圆圈越大,频次越多。在图 2 中,有 5 个明显的圆圈,其代表的关键词分别为文本挖掘、主题分类、数据挖掘、文本分类和情感分析。关键词共现图谱中的线条代表着关键词之间的联系,通过线条颜色能看出哪一年有哪些关键词,线条颜色越鲜艳标志着该研究内容的年份越靠近当下。可以看出,在文本挖掘领域发展的各个时间段都有着不同的研究侧重点和研究热点,在颜色最鲜艳的时间线上的关键词有深度学习、主题模型、语义分析、知识发现、推荐系统、人工智能、政策工
13、具等,最近几年文本挖掘领域的研究重点主要集中在智能服务、语义深度挖掘、政策分析等领域。图 2 线条众多,连接复杂,说明在文本挖掘研究领域中各关键词之间联系紧密,文本挖掘研究涉及的领域广泛。3.2 作者分析为了发现文本挖掘领域研究的中坚力量,探寻该领域的核心作者群体,本文利用 CiteSpace 软件绘制了文本挖掘研究领域的作者共现图谱,如图 3 所示。图中最突出的合作关系是以吕爱平为中心的研究团体,该团体中研究人员众多,包括张弛、姜春燕、赵宁、王耀献、崔赵丽等人;汪雪锋、任惠超、刘玉琴、张磊等人组成了一个研究团体,在这个团体中,以作者汪雪峰为中心;数字技术与应用 第 41 卷28除此之外,还有
14、黄敏婷、刘芳羽、赵秉元、李泽、古超等人组成的研究团体;以及白卫国、王跃溪、王丽颖、韩学杰、赵学尧等人组成的研究团体。从事文本挖掘领域研究的专家学者不胜枚举,其中,郭洪涛、姜淼、吕爱平、郑光、汪雪锋所发表的文献被引次数最多;吕爱平、郑光发表的文献被引次数为 69次;姜淼发表的文献被引次数为 56 次;郭洪涛发表的文献被引次数为 45 次。这几位作者是文本挖掘研究领域的带头人,在文本挖掘研究领域内具有重要影响。通过作者突显分析,可以发现在 20102021 年之间各个阶段的主要研究人员。在 20112013 年中,作者郭洪涛、谭勇、杨静发表文献最多;20152017 年,作者张永安发表文献最多;2
15、0172021 年之间,作者黄名选、黄鲁成、崔雷、武帅发表文献最多,其中作者黄鲁成在20162021 年都保持着较高的发文量。以上这些作者在文本挖掘研究领域都保持着较高的活跃度,在文本挖掘研究领域都具有重要的影响。作者吕爱平、郑光、姜淼在总体上发文最多,但论文的主要发表年限都集中在图 3 作者共现图谱Fig.3 Authors co-occurrence map图 2 关键词共现图谱Fig.2 Keywords co-occurrence map2023 年第 1 期29谭明亮蒋静:2010-2021 年国内文本挖掘的文献计量分析2013 年,论文发表年限比较早,是文本挖掘研究领域的开拓者之一
16、。3.3 研究机构分析通过对研究机构的分析,可以看出哪些机构在文本挖掘研究领域发挥着重要的作用,哪些机构之间联系比较紧密,哪些机构为文本挖掘的研究做出了重要贡献6。本文利用 CiteSpace 软件绘制了文本挖掘研究领域的研究机构共现图谱,如图 4 所示。从图 4 可以直观地看出,文本挖掘领域的研究主要以中国科学院大学经济与管理学院、中国科学院文献情报中心、中国科学院大学、北京理工大学管理与经济学院、北京工业大学经济与管理学院、武汉大学信息管理学院这几个研究机构为中心。其中,以中国中医科学院中医临床基础医学研究所为中心,兰州大学信息学院、兰州大学应用数学与统计学院、上海中医药大学、河南中医学院第一附属医院等研究机构参与了文本挖掘领域内的研究;以北京理工大学管理与经济学院为中心,中国船舶信息中心、北京印刷学院新闻出版学院、中国政法大学商学院等研究机构进行了合作;以中国科学院大学为中心,中国科学院国家科学图书馆、北京大学信息管理系、上海市浦东新区人民检察院、中国科学院大数据挖掘与知识管理重点实验室等机构对文本挖掘进行了研究与合作;以武汉大学信息管理学院为中心,武汉大学信息资源研究中心、武汉