1、收稿日期:20221112*本文系江苏省社会科学基金项目“基于共生理论的江苏省科学大数据开放共享机制与模式研究”(项目编号:19TQC001)成果。作者简介:王伟杰(1997),男,2020 级硕士研究生,研究方向为科学数据管理;孙俐丽(1984),女,副教授,研究方向为数据资源管理与服务;林祺洲(2003),男,2021 级本科生,研究方向为数据资源管理;鞠鹏(1997),男,2020 级硕士研究生,研究方向为数据挖掘。国内科学数据管理研究的主题识别与发展趋势分析*基于 LDA 模型与生命周期理论王伟杰1孙俐丽2林祺洲1鞠鹏1(1南京工业大学经济与管理学院江苏南京210023)(2南京工业大
2、学信息管理与技术研究所江苏南京210023)摘要:目的/意义 对已有研究成果进行梳理有利于明晰国内科学数据管理研究发展现状。方法/过程 结合生命周期理论与 LDA 模型,对 19922021 年国内科学数据管理研究相关文献进行统计分析,以识别我国科学数据管理研究的潜在主题、揭示阶段特征与发展趋势。结果/结论 依照文献分布特征将我国科学数据管理研究阶段分为萌芽阶段、发展阶段与繁盛阶段。从主题维度来看,国内科学数据管理相关主题围绕科学数据的服务、政策、标准、平台建设与功能拓展、科研用户及科学数据共享而展开。从演进过程来看,国内科学数据管理经历了科学数据存储研究、科学数据共享基础设施建设研究、多主体
3、全方位科学数据管理与服务研究三个阶段的主题演进。从发展趋势来看,科学数据政策、科学数据标准、科研人员以及科学数据共享主题的研究是未来该领域的研究热点。关键词:科学数据管理;科学数据;LDA 模型;生命周期理论中图分类号:G311文献标识码:Adoi:103969/jissn10058095202304019Analysis of Theme Identification and Development Trend of Scientific Data Managementin China:Based on LDA Model and Life Cycle TheoryWang Weijie1S
4、un Lili2Lin Qizhou1Ju Peng1(1 School of Economics and Management Nanjing Tech University Nanjing Jiangsu 210023)(2 Institute of Information Management and Technology Nanjing Tech University Nanjing Jiangsu 210023)Abstract:Purpose/significanceSorting out the existing research results is conducive to
5、clarifying the development status of do-mestic scientific data management research(DM)Method/processCombined with the life cycle theory and the LDA model thepaper carries out a statistical analysis on the literature related to domestic scientific data management research from 1992 to 2021 in or-der
6、to identify the potential themes of scientific data management research in China and reveals the characteristics of stages and develop-ment trends esult/conclusionAccording to the characteristics of literature distribution the research stages of scientific data manage-ment in China are divided into
7、germination stage slow development stage and rapid development stage From the perspective of thetheme the related topics of domestic scientific data management are developed around scientific data services policies standards platformconstruction and function expansion scientific research users and s
8、cientific data sharing From the perspective of the evolutionprocess domestic scientific data management has experienced three stages of thematic evolution:scientific data storage research scientificdata sharing infrastructure construction research and multisubject allround scientific data management
9、 and service research From theperspective of development trends scientific data policy scientific data standards researchers and scientific data sharing are the researchhotspots in this field in the future9112023 年 4 月Apr 2023情报探索Information esearch第 4 期(总 306 期)No 4(Serial No 306)Keywords:scientifi
10、c data management;scientific data;LDA model;life cycle theory0引言科学数据(又称科研数据,研究数据)是科学发现与知识创新的新引擎,科学研究、政府决策、产业发展等越来越依赖于科学大数据以及对其分析的能力1。一般认为科学数据是指自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据2,自 2002 年我国开始实施“国家科学数据共享工程”以来,已经在资源环境、农业、人口与健康等学科领域积累了大量的科学数据。大数据环境下,科学数据呈现
11、出数据结构多样、分布广泛、增长迅猛等特点,这对科学数据管理和利用带来极大挑战。科学数据管理是根据数据生命周期特点对科学数据进行组织与加工、存储与汇交、共享与出版、分析及重用的一系列活动3。近年来,科学数据管理办法 的发布推动了科学数据管理研究的发展,产生了一系列研究成果。对已有研究成果进行梳理有利于洞悉我国科学数据管理发展现状与趋势。现有相关研究聚焦于科学数据管理过程的某一环节或主题,如对科学数据服务4、数据共享政策5、元数据6、数据素养7、数据出版8 等主题进行述评,也有研究基于词频分析、知识图谱等视角揭示国内科学数据研究热点9。此外也有学者对我国科学数据管理的理论研究与实践活动进行系统回顾
12、4,10。总的来说,以上研究对于理解科学数据管理理论和实践进展有着重要意义,但现有相关研究多为针对某一领域或某一主体的研究,不能全面反映我国科学数据管理研究进展,不利于深入刻画研究总体脉络。我国科学数据管理整体发展历程及主题演化有待进一步梳理。狄利克雷分布(Latent Dirichle-tAllocation,简称 LDA)模型作为一种成熟的内容分析方法,能够有效挖掘领域科研文献的潜在主题11,但 LDA 模型在科学数据管理研究主题识别方面应用较少。基于此,本文拟用 LDA 模型对 1144篇科学数据管理研究文献的主题进行识别,引入生命周期理论对科学数据管理研究发展阶段进行划分,结合困惑度与
13、一致性指标确定 LDA 模型的最优主题,通过对 LDA 生成的文档主题矩阵与主题词矩阵开展内容分析,以此理清我国科学数据管理研究的发展现状、把握领域研究历程以及研判科学数据管理相关主题发展趋势。1研究理论与方法11生命周期理论生命周期理论是描述事物产生到消亡过程的基本发展规律,揭示了旧事物的消亡伴随着新事物的出现。马费成教授认为学科领域的发展也遵循生命周期的一般规律12,基于生命周期理论学科领域的发展大致分为萌芽期、发展期、成熟期、衰退期等阶段11。一个学科领域涵盖不同的研究主题,这些主题在领域发展的不同阶段呈现不同特点,包含迁徙、融合、转移、发展等特点13。因此,本文基于生命周期理论对科学数
14、据管理领域发展阶段进行划分,有助于梳理其演进脉络,探讨科学数据管理研究主题的发展趋势。12LDA 主题模型LDA 模型是 Blei 于 2003 年提出由文档、主题、词语构成的三层贝叶斯概率模型,也是以无监督学习为特征的文本挖掘方法。该模型不需要预先人为标注训练集,能够有效挖掘大规模文本预料中潜藏主题的同时更好地保留文本语料中的内部关系,有利于更合理地揭示文档主题与演化规律。LDA 基本思路是将语料中每篇文档以主题概率分布的形式来表示,每个主题以词汇概率分布来表示,其模型如图 1 所示。其中,是(主题分布)的先验分布参数,是(主题词分布)的先验分布参数,w 表示模型产出的最终主题词,z 表示模
15、型生成的主题,D 和 S 分别表示文档的数量与包含的词语量。LDA 模型生成过程主要如下:首先从先验分布参数 选择生成文档的主题分布,其次,从 取样生成文档主题 z,接着从先验分布参数 中取样生成主题所对应的主题词分布,最后从 中取样生成主题词 w。重复上述过程直至生成一篇文档的文档词项。LDA 模型输出的结果主要包括文档主题矩阵与主题词矩阵。文档主题矩阵表示每篇文章包含的主题及概率分布,同理主题词矩阵表示每个主题包含的关键词及其分布。2研究设计本文采用 LDA 模型探析科学数据管理研究的主题谱系及其发展脉络,建立 LDA 模型一般分为语料获取、数据预处理、LDA 参数设置及建模等步骤。021
16、2023 年 4 月情报探索第 4 期(总 306 期)图 1LDA 主题模型结构21数据来源及文本预处理本研究数据源于中国知网,以篇名=科学数据+科研数据+研究数据+科学数据管理,并将期刊来源类别设定为中文核心期刊要目总览、中文社会科学引文索引(CSSCI)、中国科学引文数据库(CSCD)进行检索,再将上述检索词在关键词字段进行检索,检索时间为 2022 年 1 月 1 日,共检索到文献 1 411 篇,经人工校验,剔除相关度不高或学术性不强的文章后,获得相关文献 1 144 篇。利用 python 工具提取文献中的摘要信息作为主题分析的语料来源。对初步形成的语料需要进行预处理步骤,包括分词与构建停用词表。本研究调用 python 中的 Jieba 库对语料进行分词,同时在 Jieba 库的基础上添加科学数据管理相关术语如数据共享、数据安全等词作为扩充,以提高分词准确性。同时,在分词过程中构建停用词表剔除文档中出现频率较高但无实际意义的词语,本研究使用的停用词表为哈工大停用词表,并在此基础上进行扩充,增加了“促进”“一种”等主题表现力弱的词语,提高分词的效果。22LDA 模型参数及建