1、105基于两种文摘数据的作者相似性探测席崇俊1 丁 楷1 刘文斌1 张 洁2(1.中国科学技术信息研究所 北京 100038;2.内蒙古农业大学马克思主义学院 呼和浩特 010000)摘 要 目的/意义 作者相似性探测一直是图书情报领域的热点研究问题之一,现有基于作者合著关系、作者关键词耦合、作者文献耦合等分析方法多假设关键词、标题、引文数据之间相互独立,难以真实准确地反映作者研究内容的相似性。方法/过程 构建作者的关键词-标题和引文-标题 2 模矩阵,分别以标题向量表征关键词和引文,再以各关键词和引文的夹角余弦平均值表征作者相似性,并对关键词和引文加权从非对称视角下考察作者的相似性。结果/结
2、论 实验结果表明,基于加权的关键词-标题和引文-标题数据可以从非对称视角下较为准确地分析作者的相似性。关键词 关键词 引文 2 模矩阵 余弦相似度 作者相似性 非对称视角分类号 G350引用本文格式 席崇俊,丁楷,刘文斌,等.基于两种文摘数据的作者相似性探测 J.图书情报研究,2023,16(2):105-112.Author Similarity Detection Based on Two Abstract DataXi Chongjun1,Ding Kai1,Liu Wenbin1,Zhang Jie2 1.China Institute of Science and Technolog
3、y Information,Beijing 100038,China2.School of Marxism,Inner Mongolia Agricultural University Huhhot 010000,ChinaAbstract Purpose/significance Research on author similarity has always been one of the hot issues in the field of library and information science.The existing methods based on author co-au
4、thoring relationship,author keyword coupling,author document coupling,etc.assume that keywords,titles,and citation data are independent of each other,which is difficult to truly and accurately reflect the similarity of the authors research content.Method/process This paper intends to construct the a
5、uthors keyword title and citation-title 2-module matrix,respectively,using the title vector to represent the keywords and citations,and then using the cosine similarity mean of each keyword and citation to represent the authors similarity,and to investigate the change of authors similarity under the
6、 asymmetric perspective before and after the weighting of keywords and citations.Result/conclusion The experiment shows that the weighted keyword title and citation title data can accurately analyze the similarity between authors from an asymmetric perspective.Key words key word;citation;2-module ma
7、trix;cosine similarity;author similarity;asymmetric perspective2023 年第 2 期情报分析1061 文献回顾随着科学技术和科学研究的不断发展,学术文献量迅猛增长,作者规模也日益庞大,在大量的作者队伍中探测作者研究内容的相似性一直是图书情报领域的热点问题之一1。作者是知识的创造者也是科学研究的主体,学术论文是作者研究的主要成果,基于学术论文的文摘数据探测作者研究内容的相似性对于研究领域知识结构2-4、挖掘作者合作关系5-6、科研社区发现7等方面具有深远的意义。目前,关于作者相似性的计算方法受到较多认可的有三种基本方式:即基于合著分
8、析、基于引文分析和基于关键词分析。合著分析旨在通过作者之间的合著关系来计算作者相似度:若两位作者合著的论文数量越多,则他们的研究内容越为相似8-10。李纲11-12先后构建作者合著网络,并利用 Louvain 算法划分社区,对比分析整体网络及社区内部作者研究兴趣的相似性,并在此基础上通过计算合著作者相似性,发现研究兴趣相似是作者合作的一个重要动机。王卫13则构建了合著关系预测的指标体系,利用基于随机森林的合著关系预测模型对作者合著关系展开预测。虽然合著关系可以直接地反映学者关系,但这种关系更多地反映出学者之间的社会关系而非仅仅是学术关系8。基于引文的作者相似度研究可以分为作者共被引分析和作者文
9、献耦合分析。作者共被引分析是通过计算作者的引用强度来度量作者研究内容的相似度,其基本思想是:若两个作者发表的文献被相同文献引用的次数越多,则这两个作者的研究内容越相似。作者文献耦合分析则是通过计算作者的耦合强度来度量作者研究内容的相似度:两个作者引用的相同文献数越多,则他们的研究方向越相近。关于作者共被引分析和作者文献耦合分析,学者对其展开了深入研究:如Ahlgren、Jameving 等建议使用 Salton 余弦函数代替作者共被引分析中的 Pearson 相关系数来度量相似度14;郝玉珊等15通过构建作者-关键词二值矩阵,将其作为权重融入到作者文献耦合分析中,形成融入内容的作者文献耦合矩阵
10、,并对融入关键词前后的作者文献耦合矩阵进行对比分析。虽然基于引文分析测量作者相似度受到众多学者的认可,但引文的不规范性及文献发表的时滞性都将对计算结果产生偏差16-17。通过关键词对作者相似度进行计算主要有两种方法18:一是通过作者所标引的关键词集合对作者进行描述,利用向量空间模型等方法对作者相似度进行测量;二是作者关键词耦合分析,即利用作者间共同关键词数量作为其相似性的计算指标19。如刘萍等8通过向量空间模型计算出关键词之间的关联度,再利用图结构相似度算法 P-Rank 挖掘出作者间的间接关联关系。陈卫静等5探讨了如何利用作者关键词耦合分析法计算作者之间的相似度,并根据作者的相似度挖掘作者之
11、间潜在的合作关系。综上,基于作者合著关系测量其相似度的方法最为直接,但这种合著关系更多地是一种社会关系,且在合著关系中难以辨别谁在论文中发挥了主要作用20;基于引文的作者相似度计算则容易受到作者引用动机、引用深度及引用时滞的影响21-22,由于文献内容结构的复杂性,同一篇论文可能会被引用在不同种类的文献中;基于关键词的作者相似度计算则从文献内容角度度量作者的相似性,但在计算时未考虑关键词之间的语义关联性,不同的作者可能因为喜好不同选择了语义相似的不同关键词,而同一关键词在不同的语境下也可能代表着不同的含义。基于此,本文拟构建代表作者的关键词-标题 2 模矩阵和引文-标题 2 模矩阵,并假设同一
12、篇文献中的关键词和引文具有较高的关联度,则可以通过度量不同作者的关键词-标题 2 模矩阵和引文-标题2 模矩阵的相似性来分析作者之间相似性,并通过赋予关键词和引文权重研究非对称视角下的作者相似性变化,最后将几种 2 模矩阵的计算结果进行比较分析。2 基于二模矩阵的作者相似性探测2.1 基于单种文摘数据的作者相似性探测基于单种文摘数据(如标题、关键词、引文等)探测作者相似性是通过构建作者的标题向量、关键词向量、引文向量等来表征作者信息,以各向量之间的夹角余弦值作为两作者的相似度。以标题文摘数据为例,首先构建作者-标题 2 模矩阵(表 1),则矩阵的每一行可看作代表每位作者的标题向量,通过计算每位
13、作者的标题向量夹2023 年第 2 期情报分析107席崇俊 丁 楷 刘文斌 等:基于两种文摘数据的作者相似性探测角余弦值来表征作者之间的相似性。将标题替换为关键词、引文,则可以得到基于作者关键词向量和作者引文向量的余弦相似度。表 1 作者-标题 2 模矩阵标题 1标题 2标题 3作者 1作者 2作者 32.2 基于两种文摘数据的作者相似性探测基于单种文摘数据探测作者相似性时考虑各文摘数据互相独立,难以准确反映作者的研究内容,如同一个关键词在不同的文献中可能有不同的语义,同一篇引文可能会被不同种类的文献所引用,因此本文考虑构建作者的关键词-标题2 模矩阵和引文标题 2 模矩阵,假设同一篇文献中的
14、关键词和引文之间具有较高的关联性,则可以通过研究矩阵之间的相似性来分析作者的相似性。以作者的关键词-标题 2 模矩阵为例,首先,构建所有待研究作者的关键词集合与文献标题集合,分别作为列和行建立关键词-标题 2 模矩阵;接着,分别考察每位作者所使用的关键词与其所发表文献之间的共现关系,便可得到属于每位作者之间的关键词-标题 2 模矩阵;最后,逐个计算基于标题向量的关键词余弦相似度(即两矩阵对应行的向量余弦相似度),以所有关键词的余弦相似度算术平均值代表作者相似度,若赋予每个关键词一定的权重(作者使用该关键词的频次占所有关键词总频次的比重),所有关键词的加权余弦相似度则可以代表非对称视角下的作者相
15、似度。将关键词替换成引文,则可以得到基于作者的引文-标题 2 模矩阵探测作者相似性。表 2 作者的关键词-标题 2 模矩阵作者 1作者 2标题 1 标题 2标题 1 标题 2关键词 1关键词 1关键词 2关键词 23 实证分析3.1 数据集构建本 文 的 数 据 集 来 源 于 Web of Science 核心合集中信息科学领域 8 种具有代表性的国 外 图 书 情 报 学 期 刊23-24(Journal of the Association for Information Science and Technology、Scientometrics、Library Journal、Info
16、rmation Processing Management、Journal of Academic Librarianship、Electronic Library、Journal of Information Science、Library Trends),文 献 来源时间限定为 2015-2021 年,文献类型限定为Article,共得到 5 832 篇文献(检索日期为 2021年 3 月 15 日)。对上述文献导出题录数据后进行数据清洗,考虑实验效果本文选择发文量排名前15 的作者进行研究,共得到 328 篇论文、697 个关键词和 9 630 篇引文,相关信息见表 3。表 3 发文量排名前十五的作者相关信息发文量/篇关键词数/个关键词总频次/次引文数/篇引文总频次/篇Bornmann,Lutz6617725817682536Thelwall,Mike6414220125863546Leydesdorff,Loet4210814412861869Ding,Ying27485711461360Bu,Yi25528310241307Glanzel,Wolfgang2483109515