基于学科分类和文本主题的科学基金项目与产出论文目标一致性识别研究.pdf

资源描述

1、情报学报 2023 年 8 月第 42 卷第 8 期Journal of the China Society for Scientific and Technical Information,Aug.2023,42(8):893-905基于学科分类和文本主题的科学基金项目与产出论文目标一致性识别研究黄颖1，2，3，虞逸飞1，2，郑寅鑫1，2，朱芸畅1，张琳1，2，3（1.武汉大学信息管理学院，武汉 430072；2.武汉大学科教管理与评价中心，武汉 430072；3.鲁汶大学ECOOM研究中心，鲁汶 B-3000）摘要探究科学基金项目与产出论文的相关性，有助于拓宽科学基金绩效评价的分析维

2、度，对提高科学基金管理水平具有重要意义。本研究从内容相关性的角度出发，引入科学基金项目与产出论文目标一致性的概念，在此基础上提出了基于学科分类和文本主题的目标一致性识别方法，并以国家自然科学基金委员会（National Natural Science Foundation of China，NSFC）资助的项目为例，验证了该方法的科学性和有效性。研究发现，有大量的NSFC项目与其产出论文的目标一致程度较低，且不同目标一致性特征的NSFC项目在各维度上的分布有很大差异。其中，“低学科相似度-低文本相似度”项目在更具影响力的国家自然科学基金重点项目和国家杰出青年科学基金项目中占比更高。结果表明，本

3、研究提出的目标一致性识别方法可以有效弥补单一视角的不足，实现对科学基金项目与产出论文目标一致性的多维度综合识别，为科学基金绩效评价提供了一个新的角度和解决思路。关键词科学基金；产出论文；目标一致性；学科分类；文本主题Objective Consistency of Funded Projects and Papers Based on Discipline and TextHuang Ying1,2,3,Yu Yifei1,2,Zheng Yinxin1,2,Zhu Yunchang1 and Zhang Lin1,2,3(1.School of Information Management

4、,Wuhan University,Wuhan 430072;2.Center for Science,Technology&Education Assessment(CSTEA),Wuhan University,Wuhan 430072;3.Centre for R&D Monitoring(ECOOM)and Department of MSI,KU Leuven,Leuven B-3000)Abstract：Exploring the content relevance of funded projects and output papers can help broaden the

5、analytical dimension of funding performance evaluation,which is significant for improving the level of funding management.Considering the content relevance of funded projects and papers,this study proposes a definition of objective consistency and develops a method to identify such consistency betwe

6、en funded projects and papers based on discipline and text.The projects funded by the National Natural Science Foundation of China(NSFC)were used to verify the effectiveness of the method.A large number of NSFC projects are found to have low objective consistency with their output papers,and there i

7、s a significant difference in the distribution of NSFC projects with different objective consistency characteristics across various aspects.The proportion of“low discipline similarity-low text similarity”projects is higher in the more influential projects of the 收稿日期：2022-09-05；修回日期：2022-11-13基金项目：国

8、家自然科学基金面上项目“科研人员职业生涯的性别差异和影响机理研究：合作、流动与学术表现”（71974150）；国家自然科学基金青年科学基金项目“基于多源异构数据的新兴技术演化路径识别与预测研究”（72004169）。作者简介：黄颖，男，1990年生，博士，副教授，博士生导师，研究方向为科技计量与科技管理；虞逸飞，女，1999年生，博士研究生，研究方向为科技计量与科技管理；郑寅鑫，男，1998年生，硕士研究生，研究方向为科学计量学与科技管理；朱芸畅，女，2000年生，本科生，研究方向为科学计量学与科技管理；张琳，通信作者，女，1980年生，博士，教授，博士生导师，研究方向为科学计量学与科技管理，

9、E-mail：。DOI:10.3772/j.issn.1000-0135.2023.08.002第 42 卷情报学报Key Program and the National Science Fund for Distinguished Young Scholars.The results indicate that the objective consistency identification method can effectively compensate for the deficiency of a single perspective and achieve a compre

10、hensive multidimensional identification of objective consistency between funded projects and papers,thus providing a new perspective and approach for performance evaluation of the former.Keywords:funded projects;funded papers;objective consistency;discipline;text0引言科学基金是推动科技创新与发展的重要力量，也是支持基础科学研究最重要

11、的公共资源之一。随着我国科学基金制度的不断完善，科学基金的管理与运作趋于规范化、制度化和法制化1。科学基金绩效评价作为科学基金管理的重要内容和手段，旨在对科学基金项目的执行情况和完成质量进行评判，从而为科学基金资助管理提供重要决策依据2。在资源有限的前提下，科学基金绩效受到了各利益相关方的广泛重视，如何更好地开展科学基金绩效评价工作已成为科学基金管理部门和相关领域学者关注的重要课题。随着我国科学基金资助的广度和深度不断延伸，科学基金绩效评价的重要性日益增强，催生了一系列科学基金绩效评价方法。以同行评议为代表的定性评价法，本质上是由科学共同体对基础研究的成果价值进行主观评判，可能导致评价结果产生

12、偏差3。定量评价法需以科学基金的投入与产出等相关数据为支撑，包括科学计量学法4、数据包络法（data envelopment analysis，DEA）5-6、层次分析法（analytic hierarchy process，AHP）7和灰色关联分析8等；也有学者使用机器学习技术，如 BP（back propagation）神经网络9和支持向量机（support vector machines，SVM）10等构建绩效评价模型。此外，还有学者采用定性与定量相结合的综合评价法进行科学基金绩效评价11-12，尝试从不同角度和不同层次对科学基金资助效果进行系统评估1

13、3。为了达到激励原始创新的目的，科学基金通过各种形式资助科学研究、科研机构和科技人才。作为具有明确战略目标的科学基金项目，需要围绕科学基金资助指南要求，以研究目标为导向开展研究活动。基于此，国外科学基金绩效评价已围绕资助目标实现情况展开具体实践，而我国当前的科学基金绩效评价仍聚焦于项目产出成果。其中，论文作为科学基金项目的主要产出形式，是衡量科学基金资助效果的重要依据之一。张诗乐等4对中国各个省级行政区产出的科学基金论文数量、被引频次等进行比较；程艳丽14采用影响因子、被引频次、h指数等文献计量指标，对科学基金项目进行综合加权评估；王贤文等15根据论文受资助的情况，比较不同科技大国的科学基金资

14、助成效；张爱军等16从多维度对各国社会科学领域的科学基金论文进行分析以探究科学基金整体绩效。由此可见，当前科学基金绩效评价倾向于从定量角度使用文献计量指标进行成果评估，且重点关注产出论文的数量和质量，缺乏从目标实现层面的统筹规划。另外，学术期刊质量评估、职称评定制度等对科学基金论文的关注，诱发了一些科学基金不实标注的问题17-18，出现了项目成果与资助计划的研究内容不相关、项目完成情况与期望结果不符等情况19。其原因之一是部分学者罔顾科学基金项目与产出论文之间的内容相关性，导致一些项目利用与其研究目标不一致的论文充数，严重影响了科学基金绩效评价结果的真实性和公正性。基于此，为洞悉论文主题是否与

15、科学基金项目的目标问题相契合，有必要将论文研究内容与科学基金项目预期研究内容进行细致比对，合理评估科学基金项目的研究目标完成情况。在相关研究中，学者通常采取抽样调查的方式，对科学基金不实标注的问题进行实例解析20-22。此类研究往往以人工判别为标准，虽然准确性较高，但效率低下且主观性较强。为更高效地分析论文与科学基金项目基于内容的一致程度，有学者引入了自然语言处理和深度学习等技术以实现大规模数据识别。例如，借助主题词簇方法来评价论文研究内容与计划资助目标的相关性与集中性2，采用 word2vec 模型计算科学基金与被标注论文的内容相关性23，构建基于BERT（bidirectional enc

16、oder representations from transformers）架构的“科技项目-成果文献”相似度计算模型19，使用孪生网络模型构建科学基金和论文相关性判别模型24等。上述研究均从文本相似性的角度出发，为相关管理部门有效甄别科学基金不实标注的现象提供了方法借鉴。因此，在当前科研资助体系下，如何高效识别894第 8 期黄颖等：基于学科分类和文本主题的科学基金项目与产出论文目标一致性识别研究论文与所标注科学基金的相关性尤为重要。就国家层面而言，有利于提升国家财政投入的产出效益；就科学基金资助机构而言，可以削弱不相关研究成果对科学基金绩效评价的影响，构建更为多元化、专业性和公正性的评价

17、体系，进而推动科学基金项目产出更多高相关、高质量成果；对研究人员来说，可以进一步提升作者规范标注基金的意识，有效遏制科学基金标注不当的行为，对科研诚信体系的建设具有重要的现实意义。通过文献调研发现，鲜有研究从目标实现角度对科学基金绩效进行综合评估，针对科学基金项目与产出论文内容相关性的系统性识别方法仍处于探索阶段，且尚未有研究在学科层面对此展开分析。本研究突破了传统科学基金绩效评价的分析维度，试图克服文本单一视角判定的局限性，提出了基于学科分类和文本主题的科学基金项目与产出论文目标一致性识别方法。其中，目标一致性是指科学基金项目目标研究内容与产出论文研究内容的一致程度。同时，本研究以国家自然科

18、学基金委员会（National Natural Science Foundation of China，NSFC）资助的项目作为实证研究样本，从申请年度、项目类型、资助学部等方面考察目标不一致的情况，深度验证了该方法的科学性和有效性，以期为优化科学基金绩效评价方法、提升科学基金管理水平提供参考。1研究框架与方法论文作为科学基金项目最重要的直接产出成果，是定量评价的重要依据。然而，现阶段科学基金绩效评价主要停留在产出论文的数量与质量上，而忽视了论文研究内容本身与科学基金项目的契合度，导致科学基金不实标注的现象时有发生。尽管如此，基于内容来探讨科学基金项目与产出论文相关性的研究相对较少。因此，本研

19、究通过如图 1 所示的方法流程，对科学基金项目与产出论文的目标一致性进行识别。首先，通过 Dimensions 数据库获取科学基金项目数据和科学基金论文数据，并对数据进行清洗和预处理；其次，分别计算学科相似度和文本相似度来测度科学基金项目与产出论文在学科分类和文本主题上的目标一致程度；最后，构建“学科相似度-文本相似度”矩阵以标识不同目标一致性特征的项目。1.1数据源选择Dimensions数据库收录了学术传播生命周期内的所有类型数据，包括科学基金项目、论文、专利、政策文件等，并建立了各类型数据之间的链 https:/www.dimensions.ai/图1基于学科分类和文本主题的目标一致性识

20、别方法流程895第 42 卷情报学报接，为科学计量学研究提供了有力的数据支撑25，并且其所提供的基金数据可靠性很高26。对本研究而言，Dimensions 数据库不仅使用同一学科分类体系对科学基金项目和科学基金论文进行划分，而且包含科学基金项目及其产出论文的英文摘要，使得基于学科分类和文本主题来量化目标一致程度成为可能。在数据获取方面，用户可以通过网页和 API（application programming interface）等方式访问并获取 Dimensions 数据库资源，以开展大规模数据分析27。因此，在综合考虑数据收录情况和数据可获取性等因素的基础上，本研究选取 Dimens

21、ions 数据库作为数据源。1.2基于学科分类的目标一致性测度学科分类是科学计量学研究和科研评价的重要基础，其通过将出版物划分至单个或多个学科中，可以相对系统地标识出版物的研究方向。目前，已有许多研究基于学科分类数据展开，其中有学者根据一组论文的学科分类代码构建加权向量，利用向量间的互补余弦值来表示论文之间研究主题的相似程度28。基于此，本研究同样通过构建学科向量并计算学科相似度，来衡量科学基金项目与产出论文在学科分类上的目标一致程度。FoR（fields of research）学科分类是澳大利亚和新西兰标准分类（Australian and New Zealand Stand

22、ard Research Classification，ANZSRC）的重要组成部分，其包含了 22 个一级学科分类和 157 个二级学科分类29。Dimensions 数据库根据文档的内容，采用机器学习技术实现自动分类，这种基于文档的学科分类方案具有相对准确性30。基于此，Dimensions 数据库为科学基金项目与科学基金论文分配了一个或多个 FoR 一级和二级学科分类。由于FoR 一级学科分类的粒度较粗，且在生成学科向量的过程中会与二级学科分类产生冲突，所以，本研究仅基于 FoR 二级学科分类构建学科向量。在学科预处理时，须从科学基金项目数据与科学基金论文数据的FoR字段中提取二级学科分

23、类信息。为计算科学基金项目与产出论文基于学科分类的目标一致程度，可以先从单篇论文的角度予以测度。为此，本研究提出了两种算法。算法，先将科学基金项目与产出论文的学科分布转换为学科向量，科学基金项目或科学基金论文的学科向量可以表示为Vectorsubject=(Discipline1,Discipline2,Discipline156,Discipline157)(1)其中，学科向量共有 157 维，分别对应 157 个 FoR二级学科分类。Disciplinei的数值为 1，代表该科学基金项目或产出论文属于第 i个 FoR 二级学科分类；否则，为 0。接着，根据学科向量在向量空间中的夹角余弦值计

24、算学科相似度，以此来标识科学基金项目与单篇产出论文之间的学科相关性。实际上，科学基金项目与其产出论文的学科分类往往不是完全一致的，两者间若干学科的重合是主流现象。因此，本研究进一步提出了算法，其核心思路为，只要科学基金项目与科学基金论文含有相同的学科分类，就认为两者在学科分类上一致，记作 1；反之，记作0。科学基金项目与单篇产出论文的学科相似度计算结果示例如表 1 所示。尽管算法和算法均做出了较为准确的判断，但是当科学基金论文与科学基金项目仅有部分学科一致时（示例 2 和示例 4），算法无法对此类情况进行有效区分。此时，算法可以根据学科相似度的数值大小来表征目标一致的程度，相对更优。在此基础上

25、，为进一步从整体视角对科学基金项目及其所有产出论文的目标一致程度进行考察，本研究提出了 3 种学科相似度计算方法，具体如表2 所示。算法一和算法二均将科学基金项目产出的若干篇论文的学科元组进行合并，并根据整个论文集的学科分布得到科学基金论文的学科向量。其中，算法二进一步考虑了产出论文数量的影响。对于得到的科学基金项目学科向量和科学基金论文学科向量，这两种算法均使用余弦值计算两者的相似度。算法三则基于上文所述的算法，将科学基金项目与每篇产出论文的学科向量逐一进行测度，科学基金项目与所有产出论文的学科相似度为其与每一篇产出论文的学科相似度的平均值。学科相似度越高，表示科学基金项目与产出论文的学科分

26、类一致性越强。虽然 3 种算法都可以对科学基金项目与产出论文在学科分类上的一致程度进行测度，但是算法一和算法二在个别情况下会产生较大偏差。表 3 中的表1科学基金项目与单篇产出论文的学科相似度计算结果示例示例编号1234科学基金项目学科元组（0604，0605）（0604，0605）（0604，0605）（0604，0605）单篇科学基金论文学科元组（0606）（0604）（0604，0605）（0604，0605，0606）算法学科相似度00.711.000.82算法学科相似度01.001.001.00896第 8 期黄颖等：基于学科分类和文本主题的科学基金项目与产出论文目标一致性识别研究示

27、例 4 和示例 5 都表示在科学基金项目产出的 2 篇论文中，有 1 篇论文与科学基金项目的学科分类完全不相关。无论算法一还是算法二，都无法对此类情况进行合理判断，导致测度结果与实际情况不符。算法三从单篇论文的微观视角切入，对科学基金项目及其所有产出论文进行综合测度，这在一定程度上突破了整体角度的局限。因此，本研究采用算法三展开基于学科分类的目标一致性测度研究。1.3基于文本主题的目标一致性测度主题模型是一种利用建模技术对语料库中隐藏的主题进行挖掘的方法，其实质是利用非监督学习的方式将语料库中的隐性语义结构进行聚类31。有研究表明，主题模型不仅可以克服传统聚类算法所带来的一词多义等问题，而且能

28、够较好地识别出文本中隐含的主题信息32。与标题相比，摘要可以更好地描述科学基金项目与科学基金论文的内在蕴含信息。因此，本研究仅基于科学基金项目及其产出论文的英文摘要进行文本分析。为避免摘要文本因单词形态不同对模型训练的影响，需对文本进行预处理。首先，使用 spaCy 库剔除文本中的特殊符号以及停顿词，并提取出所有名词进行词形还原；其次，使用 NLTK（natural language toolkit）库对摘要文本的名词原形进行词干提取；最后，使用层次狄利克雷过程（hierarchical Dirichlet process，HDP）模型提取文本主题。HDP模型由Teh 等33于 2006 年提

29、出，该模型是狄利克雷过程（Dirichlet process，DP）混合模型的多层形式。DP模型假设G0是某空间 X上的随机概率分布，并且将正实数0作为聚集度系数，如果将空间 X 划分成X1,X2,Xn共n个部分后存在以下关系：(G(X1),G(X2),G(Xn)Dir(0G0(X1),0G0(X2),0G0(Xn)(2)那么 G 服从由基分布G0和超参数0组成的 DP，记作GDP(0,G0)。在 DP 模型基础上构建的 HDP 模型结构如图 2 所示，其假设所有文档的主题均服从表3学科相似度计算结果比较示例编号12345科学基金项目学科元组（0601，1109）（0299，0601）（110

30、3）（0502，0503，0602，0605，0607）（0399）科学基金论文学科元组（1109）（0299，0601）；（0299）（1103，1107）；（1102）；（1103）（0502，0503，0602，0605）；（0703）（0301，0302，0305，0306）；（0399）算法一学科相似度0.710.950.820.800.45算法二学科相似度0.710.900.800.400.89算法三学科相似度0.710.850.570.450.50图2层次狄利克雷过程（HDP）模型结构33表2科学基金项目与所有产出论文的学科相似度计算方法算法一算法二算法三学科向量元素的值i=Ni

31、N其中，i表示Disciplinei在科学基金项目或论文集中的归一化出现频率；Ni为科学基金项目或论文集中Disciplinei出现的频数；N为不同学科类别出现的总频数。i=1NpNijNsj其中，i表示Disciplinei在每篇论文中出现频率的和；Np为产出论文总数；Nij的取值为0或1，若论文j中存在Disciplinei，则该值为1；Nsj为论文j所属学科总数。i=1，学科非空0，学科为空其中，若i的数值为1，则代表单个科学基金项目或单篇产出论文属于第i个学科分类；否则，为0。学科相似度计算S=VgrantVpaper|Vgrant|Vpaper其中，Vgrant和Vpaper分别表示

32、科学基金项目学科向量和科学基金论文学科向量。S=VgrantVpaper|Vgrant|Vpaper其中，Vgrant和Vpaper分别表示科学基金项目学科向量和科学基金论文学科向量。S=1NpVgrantVpaperj|Vgrant|Vpaperj其中，Np为产出论文总数；Vgrant和Vpaperj分别表示科学基金项目学科向量和第j篇科学基金论文的学科向量。897第 42 卷情报学报基分布 H，文档集的主题分布G0服从DP(,H)，文档集中文档 J的主题分布Gj服从DP(,G0)，则 HDP模型的形式定义为G0|,HDP(,H)(3)Gj|0,G0DP(0,G0)(4)其中，和为聚集

33、度系数。HDP 模型作为一种非参数的贝叶斯模型，可以根据文档集的内容生成最优主题数，每个主题由 m个不同权重的主题词组成。实践证明，HDP模型在某些情况下具有更好的聚类与抽取性能34。HDP模型在准确度和主题选取质量上具有显著优势，所以本研究使用 tomotopy提供的 HDP 模型来提取科学基金项目及其产出论文的文本主题。tomotopy 是基于吉布斯采样的主题模型库，其模型训练函数的参数及默认值为deftrain(self,iter=10,workers=0,parallel=0,freeze_topics=False)(5)其中，iter 表示吉布斯抽样迭代次数，默认参数为10；work

34、ers 表示执行吉布斯采样的进程数，默认参数为 0，代表调用操作系统所有的进程；parallel表示模型训练的并行方案，默认参数为 0，表示根据模型选择最佳方案；freeze_topics 表示模型训练时是否禁止创建新主题，默认参数为 False。本研究通过实验调优，将迭代次数和进程数分别设置为500和1，而其他参数均为默认值。为计算文本相似度，本研究根据 HDP模型运行结果中与每个词集相似度最高的主题，生成 20 维的科学基金项目或单篇科学基金论文的文本主题词向量，即Vectortext=(Word1,Word2,Word19,Word20)(6)其中，每个主题词的权重为其在主题中的权值。文

35、本相似度同样用夹角余弦值测算。文本相似度越接近于 1，代表科学基金项目与单篇产出论文在文本主题层面的目标一致程度越高。科学基金项目与所有产出论文的文本相似度的平均值用于衡量科学基金项目与产出论文的目标一致程度。1.4生成“学科相似度-文本相似度”矩阵学科分类和文本主题均能够反映科学基金项目与科学基金论文的研究内容，因而使用学科相似度或文本相似度可以量化目标一致程度。但是，Dimensions 数据库学科分类的准确性受到诸多学者的质疑35-36，且由于文本数据的局限性或科学基金项目本身的特殊性，基于学科分类或文本主题的目标一致性识别方法存在误判的情况。为弥补单一指标的不足，本研究结合学科相似度和

36、文本相似度来识别科学基金项目与产出论文的目标一致性，并将科学基金项目分为以下4种类型（图3）。（1）“低学科相似度-低文本相似度”项目：科学基金项目与产出论文在学科分类和文本主题上均具有较低的目标一致程度。（2）“低学科相似度-高文本相似度”项目：科学基金项目与产出论文在学科分类上具有较低的目标一致程度，但其文本主题的目标一致程度较高。（3）“高学科相似度-低文本相似度”项目：科学基金项目与产出论文在学科分类上具有较高的目标一致程度，但其文本主题的目标一致程度较低。（4）“高学科相似度-高文本相似度”项目：科学基金项目与产出论文在学科分类和文本主题上均具有较高的目标一致程度。2实证分析：NSF

37、C项目的目标一致性识别本研究选取了 20112015 年 NSFC 8 个学部资助的 7 种类型项目及其产出论文作为数据样本，以深入分析不同申请年度、类型和学部的 NSFC 项目的目标一致性特征。其中，7 种类型项目具体包括面上项目、重点项目、青年科学基金项目（简称“青年项目”）、优秀青年科学基金项目（简称“优 https:/bab2min.github.io/tomotopy/v0.12.2/en/图3“学科相似度-文本相似度”矩阵898第 8 期黄颖等：基于学科分类和文本主题的科学基金项目与产出论文目标一致性识别研究青项目”）、国家杰出青年科学基金项目（简称“杰青项目”）、地区科学基金项目

38、（简称“地区项目”）和海外及港澳学者合作研究科学基金项目（简称“海外项目”）。首先，本研究从国家自然科学基金大数据知识管理服务门户获取研究样本的项目编号。对于从Dimensions 的网页中获得的 20112015 年度的 NSFC 项目数据，通过项目编号进一步匹配目标项目。其次，为了获得受这些 NSFC 项目资助的论文，本研究根据项目编号撰写检索式，从 Dimensions 的API 中批量获取科学基金论文数据。在此基础上，科学基金项目须满足以下条件：科学基金项目的FoR 二级学科分类非空且含有 FoR 二级学科分类非空的产出论文；科学基金项目的摘要非空且含有摘要非空的产出论文。经数据清洗和

39、预处理，最终数据样本为 157265 个科学基金项目及其产出论文1692843 篇。根据以上数据，运用基于学科分类和文本主题的目标一致性识别方法，从多维度探究NSFC项目与产出论文的目标一致性情况。2.1学科相似度和文本相似度差异比较为了更好地验证结合学科分类和文本主题两个方面来识别科学基金项目与产出论文目标一致性的必要性，本研究首先对 NSFC 项目与产出论文的学科相似度和文本相似度的差异进行分析。如图 4 所示，学科相似度和文本相似度在总体上具有不同的分布情况。从学科分类的视角来看，学科相似度为 0 的 NSFC 项目高达 28763 个，占比18.29%，说明有大量 NSFC 项目与产出

40、论文在学科分类上完全不一致。学科相似度集中分布在(0.4,0.5区间内，文本相似度则呈现不一样的情况。NSFC 项目与产出论文的文本相似度为 0 和 1 的数量较少，分别为 60 个和 3538 个。文本相似度主要分布在(0.1,0.2区间，占比为 18.74%。从整体上看，学科相似度两极分化较为严重，而基于文本主题的目标一致性识别结果出现极端值的情况较少，但整体的数值偏小。从上述分析可以看出，学科相似度和文本相似度在总体层面具有显著差异。通过查看同一个 NSFC 项目的学科相似度与文本相似度分布情况，可以进一步从个体层面予以探讨。基于学科相似度与文本相似度的科学基金项目分布如图 5 所示，其

41、中的气泡越大、颜色越深，代表科学基金项目的数量越多。在图 5 中只有少数科学基金项目位于对角线上（11.22%），意味着这些科学基金项目在学科分类和文本主题两个方面具有较为相似的目标一致性测度结果。但是，大部分科学基金项目的学科相似度和文本相似度表现出一定的差异。其中，共有865 个 NSFC 项目的学科相似度与文本相似度的差值为 1，对于这部分项目两个指标给出了截然不同 http:/ 42 卷情报学报的识别结果。由此可见，即使对于同一个科学基金项目，基于学科分类和文本主题的测度结果也产生了分歧。本研究发现，学科相似度与文本相似度相关性较弱可能涉及以下几个原因，结合表 4 中的案例予以阐

42、述：科学基金项目与产出论文各自被分配了若干个不同的学科，即使学科之间的距离较近（属于同一个一级学科），也会因二级学科分类代码不同而导致学科相似度很低（案例 1）；在学科相似度为 0 的科学基金项目中，近 90%的项目仅属于一个学科分类，而它们产出的论文均不涉及项目所属学科，但此时两者的文本主题相关（案例 2），此类情况不排除学科分类有误的影响；摘要文本过短，无法清晰表达文本主题，降低了文本相似度（案例 3）；来自化学科学部等学部的项目及其产出论文的文本信息涉及化学分子式等要素，在一定程度上干扰了文本处理的结果，导致文本相似度较低（案例 4）；相关性检验发现，学科相似度与产出论文数无关，而文本相

43、似度与产出论文数呈现弱的负相关（皮尔逊相关系数为-0.366），导致部分产出论文较多的科学基金项目具有较低的文本相似度（案例 5）。因此，单一视角的识别结果不能很好地反映目标一致性，结合学科相似度和文本相似度可以从两个方面互相验证，从而有效提升识别结果的准确性。2.2目标一致性识别结果分析学科分类和文本主题视角下得出的目标一致性识别结果之间存在差异。为突破单一识别视角的局限性，本研究以学科相似度平均值 0.42 和文本相似度平均值 0.35 作为划分标准，基于“学科相似度-文本相似度”矩阵（见图 3）将 NSFC 项目划分为 4种类型。结果显示，“低学科相似度-低文本相似度”项目占比最多，为

44、29.89%，说明有大量 NSFC项目与其产出论文在学科分类和文本主题上的目标一致程度均较低。下文将从申请年度、类型和学部3个维度进行分析。从项目申请年度来看（图 6），不同目标一致性特征的 NSFC项目在不同年度的占比没有太大差异。其中，每个年度占比最高的都是“低学科相似度-低文本相似度”项目，并且该特征项目的占比逐年图5基于学科相似度与文本相似度的科学基金项目分布表4学科相似度与文本相似度差异案例案例编号12345科学基金项目学科元组（0604）（0103）（0403）（0302，0303，0306）（0402，0403，0914）文本主题style；two；mechanism；origi

45、n；project；mulberry；factor；ex；pollen；tubechain；supply；cluster；cooper；paper；model；first；structure；result；factorMT；orogen；China；model；feature；station；broadband；block；dimensionHSQ；material；chain；PVEAH；surfactant；morphology；polyelectrolyte；process；metal；hydrogenore-based；fluid；composition；rock；assemblage

46、；water；Inclusion；host；occurrence科学基金论文学科元组（0603，0607）（0104）；（1402）；（1503）；（0801，1503）（0403）；（0403）；（0403，0404）；（0403，0404）；（0403，0404）（0303）；（0303，0306）（0403）；（0403）；（0403）；（0402，0403）；（0402，0403）；（0402，0403）；（0402，0403）；（0402，0403）；（0402，0403）；（0402，0403）文本主题morph；self；pollination；pollen；tube；syste

47、m；incompatibility；style；two；speciechain；supply；cluster；order；system；two；contract；retail；paper；cooperresist；block；area；model；fault；studies；crust；belt；MT；strikeHSQ；material；structure；UCHMs；nanoparticle；chain；phase；metal；template；catalystREE；miner；deposit；ore；nephrite；belt；syenite；fluid；age；carbonatite

48、学科相似度000.820.700.75文本相似度0.750.680.120.150.05900第 8 期黄颖等：基于学科分类和文本主题的科学基金项目与产出论文目标一致性识别研究增多，从 2011 年度的 28.29%增长到 2015 年度的31.58%。与之相反，20112015 年“低学科相似度-高文本相似度”项目占比逐年减少，并且 20122015 年“高学科相似度-高文本相似度”项目占比也逐年减少。这反映了 NSFC 项目与产出论文的目标一致性呈逐年下降的趋势。根据图 7 展示的各类型 NSFC 项目与产出论文的目标一致性特征分布情况可以发现，在更具影响力的重点项目中，“低学科相似度-低

49、文本相似度”项目占比高达 40.60%，说明有大量受此类项目资助的论文与项目预期研究内容不一致；而杰青项目中的 38.82%、优青项目中的 37.01%在学科分类与文本主题上均具有较低的目标一致程度。与之相反，青年项目中“高学科相似度-高文本相似度”项目占比最高，达到 27.15%。相对而言，“高学科相似度-低文本相似度”项目在各类型 NSFC 项目中均有较高的占比，说明各类型项目倾向于在与项目研究内容一致的学科领域内发表文章。如图 8 所示，来自不同学部的 NSFC 项目也有着不同的目标一致性特征。生命科学部和数理科学部是仅有的“高学科相似度-高文本相似度”项目占比最大的两个学部，分别达到

50、30.84%和 31.44%，说明这两个学部项目与产出论文具有较高的目标一致程度。但是，信息科学部、管理科学部和化学科学部却有约 1/3 的项目属于“低学科相似度-低文本相似度”的范畴，意味着目标不一致情况在以上 3个学部中出现的频次较高。上述结果表明，科学基金项目与产出论文目标不一致的现象较为普遍。对于不同申请年度的 NSFC项目，“低学科相似度-低文本相似度”项目的占比均最高。此外，不同目标一致性特征的 NSFC 项目呈现明显的项目类型和学部的差异。有较多的重点项目、杰青项目和优青项目与其产出论文目标一致程度较低，而信息科学部、管理科学部和化学科图7基于学科分类和文本主题的目标一致性识别结

展开阅读全文