1、总第 74 期 2023 年 第 2 期Data Analysis and Knowledge Discovery创新二重性视角下明星发明人类型的早期识别*刘向 刘香 余博文(华中师范大学信息管理学院 武汉 430079)摘要:【目的】通过专利数量和专利引用识别明星发明人类型的方法存在明显时滞效应,本文结合专利文本和发明者合作关系构建了图卷积神经网络,该模型可以用于明星发明人的早期识别。【方法】从“延续性创新”、“突破性创新”两个维度将明星发明人的创新类型分为“复合型”、“巩固型”、“突破型”和“发展型”4类,结合专利标题信息和明星发明人的合作关系,构建基于图卷积神经网络的明星发明人类型的早期
2、识别模型。【结果】以分子生物学与微生物学领域内专利数据进行了验证,实验表明本模型识别明星发明人创新类型的整体准确率为79.4%,相较于只使用词向量的方法准确率提高了约15个百分点。【局限】本文模型对于“突破型明星发明人”早期识别效果不理想,还需进一步寻找突破型发明人的特征,以提高模型的有效性。【结论】本文模型可以克服基于专利数量和引证的识别方法的时滞效应,能尽早地识别明星发明人的创新类型。关键词:明星发明人 创新二重性 早期识别 突破性创新 延续性创新 合作关系分类号:G305 TP183DOI:10.11925/infotech.2096-3467.2022.0330引用本文:刘向,刘香,余
3、博文.创新二重性视角下明星发明人类型的早期识别 J.数据分析与知识发现,2023,7(2):119-128.(Liu Xiang,Liu Xiang,Yu Bowen.Early Identification of Star Inventor Types in the Perspective of Innovation DualityJ.Data Analysis and Knowledge Discovery,2023,7(2):119-128.)1 引 言当前,我国正处于产业调整升级和科技全面突破的关键阶段,如何突破技术瓶颈、实现产业的顺利升级是国家和企业所面临的重大问题。科技创新是解决这
4、一问题的主要途径,科技创新人才的培养和选拨则是其中的关键1。国家和企业纷纷出台了一系列政策培养和招揽拨尖人才,例如国家的“百千万人才计划”、“杰出青年人才计划”、企业的“百万年薪青年科学家计划”等2。然而,如何将具备突破性发明能力的发明人从众多的技术菁英中识别出来、如何更早地预估发明人的创新类型成为难点问题。明星发明人是指所拥有的专利的影响力处于头部的发明家群体3,他们具备较强的科技创新能力,对于科技发展起着举足轻重的作用4-5。但明星发明人群体内部的创新能力和创新类型存在较大差异,比如有的发明人偏向进行基础性和突破性的研究、有的发明人则从事着延续性的改进创新。在不同的企业及企业的不同阶段中,
5、不同类型发明人发挥的作用也大不相同6。因此,尽早、准确识别明星发明人的创新类型,对于科技创新人才选拔和培养、科技发展战略的制定具有重要的意义。本文从发明人延续性创新和突破性创新两个维度对明星发明人的类型进行重新定义和划分,采用图卷积网络(Graph Convolutional Network,GCN),结合发明人专利标题信息和合作关系,对明星发明人的创新能力类型进行判断和早期识别。2 相关研究目前,识别明星发明人的研究主要集中在信息通讯作者(Corresponding author):刘向(Liu Xiang),ORCID:0000-0003-4315-2699,E-mail:。*本文系国家自
6、然科学基金项目(项目编号:71673106)的研究成果之一。The work is supported by National Natural Science Foundation of China(Grant No.71673106).119研究论文数据分析与知识发现计量和引文分析领域,多采用专利数量和专利引用的方法7-8。即通过统计发明人获得授权专利的数量和发明人专利被引的情况来判断发明人的创新能力。Moretti 等、Zacchia 从专利数量上进行界定,Moretti等提出过去10年达到或超过专利数量前5%的发明人即为明星发明人8;Zacchia认为拥有超过18项专利的即为明星发明人9
7、。Hohberger从专利的被引次数上进行界定,认为累计专利被引证数排名前1%的为明星发明人10。可见明星发明人的界定较为一致,都强调高产出、高质量。同时,明星发明人群体内部也存在差异。Ernst等使用专利质量和专利申请量将发明人划分为关键发明人、天才发明人和多产发明人7。Schiffauerova等结合专利数量和引用两个指标提出一个新的指标QQ指数,从发明人中识别出多产发明人、明星发明人和QQ超级明星11。Zacchia将明星发明人的专利数量按照前 1%5%、前 0.5%1%、前 0.5%划 分 为 矮 子(Dwarves)、巨 人(Giants)和 出 色 的 巨 人(Bright Gia
8、nts)9。Subramanian 等根据专利数量和学术成果数量将明星发明人划分为巴斯德式科学家和爱迪生式科学家12。然而,获得大量专利授权和引用需要较长的时间,一项专利从公开到被引用需要35年时间,因此通过授权专利数量和引用识别明星发明人类型存在明显的时滞效应13。直接使用主题词进行专利分类与创新性识别则不受时滞性的影响。肖悦珺等在词频统计的基础上将句子向量与专有名词向量进行融合,对专利文本类别进行识别14。贾杉杉等使用从专利申请书中提取的主题词词频特征对专利的分类号进行预测15。同样,专利主题词不仅可以反映专利的研究内容差异,也可以体现专利创新类型上的差异,如突破性创新专利的标题中常使用“
9、change”“advance”等词,延续性创新专利则常用“model”“theory”等词16。杨雪梅等也从突破性文章中提取摘要的高频词作为突破性研究特征词17。发明人的创新能力可以由其所开发的专利来度量,也可以使用主题词的新颖程度进行度量。深度学习方法可以显著提高文本分类的准确性18-20。雷 兵 等 以 卷 积 神 经 网 络(Convolutional Neural Networks,CNN)为基础,基于题录信息对文献类型进行分类21。Kipf等使用图卷积神经网络对文本进行半监督分类,并使用4种类型的数据集进行验证22。杨光泽等使用GCN嵌入社交关系对学生的就业类别进行预测23。同时,
10、越来越多的专利发明产生于合作群体中,发明人的创新能力及其发明的创新程度也受到该发明人合作者创新能力的影响24。李海林等指出合作的多元化有利于促进新知识的交流吸收,从而提高创新绩效25。曾德明等认为合作网络结构特征和合作的强度、广度对创新绩效会有一定的影响26。关鹏等分析了合作网络对研发团队创新产出的影响,发现合作规模、持续时间等对创新产出数量和质量都有显著的影响27。由此,在发明人创新能力度量和创新类型识别中考虑该发明人的合作关系是合理的,且有利于识别准确率的提高。综上,学者们从不同的维度识别明星发明人的类型,然而大多忽视了发明人创新能力的差异,且基于授权专利数量和引用关系区别明星发明人类型的
11、方法存在明显的时滞效应。因此,本文从创新二重性的视角出发,以延续性创新和突破性创新两个维度对明星发明人类型进行重新界定。尝试在专利标题词向量中嵌入发明人合作关系,从而对明星发明人的创新类型进行早期识别。3 创新二重性视角下明星发明人的类型划分创新是经济进步和机构提升竞争优势的关键因素。根据新技术与传统技术的差异性程度,技术创新可分为延续性创新和突破式创新28。延续性创新也称积累性创新,是对现有知识和技术的巩固发展;突破性创新强调的则是开发新技术的知识与能力。虽然突破性创新相较于延续性创新而言具有更高的技术优越性,能带来更多的竞争优势,但突破性创新也意味着更大的风险与挑战。因而,当发明人既具有延
12、续性创新特征又具有突破性创新特征时,相较于其他个体,具有更强的创新能力和竞争优势。因此,本文基于创新二重性的视角,从延续性创新和突破性创新两个维度对明星发明人类型进行划分。3.1延续性创新与突破性创新在知识网络中,一项发明的创新性取决于其如120总第 74 期 2023 年 第 2 期Data Analysis and Knowledge Discovery何影响其他技术的使用,Funk等通过焦点专利、现有专利与未来其他专利的联系,提出一种新的度量指标CD指数,变化区间为11,分别用于衡量延续性创新和突破性创新29,但该计量方法对于0值无法给出解释。2021年,Chen等在CD指数的基础上提出
13、了一种新的度量方法,即将CD指数拆分为C值和D值,有效解决了0值的争议30。因此,本文选择 C、D 指数区分突破性创新与延续性创新。该指标不仅可以有效区分突破性与延续性创新,而且具有连续性和动态性,可以观测这项技术如何广泛地影响后续研究进展30,其 C、D指数如公式(1)所示。C=nifpnif+nifp+nip,D=nifnif+nifp+nip(1)其中,nif表示引用焦点专利f但不引用其现有技术pi的专利,nip表示仅引用焦点专利f的现有技术pi的专利,nifp表示同时引用f和pi的专利。3.2明星发明人的分类本文主要基于 C、D指数对明星发明人类型进行划分,由于该指数是用来计算专利的延
14、续性创新和突破性创新,因此本文在公式(1)基础上提出发明人延续性创新(IC)和突破性创新(ID)的计算方法,如公式(2)所示。IC=1mimCi,ID=1mimDi(2)其中,m为发明人所授权的专利总数,为发明人的专利i的延续性创新值,Di为发明人的专利i的突破性创新值。计算出每位发明人的延续性创新值和突破性创新值后,参考Chen等使用专利的C、D值的中位数将专利划分为4类的方式30,取发明人各自的中位数(ICm、IDm)为临界值将明星发明人创新类型划分为复合型、巩固型、突破型和发展型这4种类型,如图1所示。第一类为复合型明星发明人,这一类发明人具有高延续性、高突破性,他们具备双重能力,既具有
15、高度的整合能力来增强现有技术的使用,又同时具有开发新技术的能力,具有较强的竞争优势且可以在多方面发挥优势。第二类为巩固型明星发明人,他们具有高延续性、低突破性,对现有知识的整合能力较强,能更好地完善现有成果。第三类为突破型明星发明人,这一类发明人具有高突破性、低延续性,他们具备很强的突破性创新能力,但却缺乏对现有知识整合的能力。最后一类为发展型明星发明人,他们更多从事的是技术上细节上的改进,其发明创造对整个技术进展不会产生非常大的影响。4 明星发明人创新类型早期识别模型本文提出的明星发明人创新类型早期识别模型主要包括三个部分,具体结构如图2所示:第一部分是输入层,由特征矩阵和标签向量组成;第二
16、部分为图嵌入层,即将明星发明人合作关系嵌入其特征矩阵中;第三部分是图神经网络实现明星发明人创新类型早期识别的过程,主要由两层卷积层、池化层和Softmax层组成。4.1特征矩阵和标签向量的构建(1)特征矩阵的构建由于原始数据集中的数据大都杂乱无章且含有大量噪声,因此,在构建特征矩阵之前,需要对所收集的专利标题信息进行预处理。本文所用到的标题为英文标题,因此首先对文本进行大小写转换,为了减少误差,将英文文本统一转换为小写;其次,对标题信息进行分词处理;最后,为了增加特征词的有效性,进行去停用词处理。领域高频词通常可作为特征词31,因此选取词频位于前3 000的作为本文的特征词,使用One-Hot编码进行特征矩阵的构建,若该明星发明人使用了该特征词即将对应位置的值设定为1,否则对应位置的值设定为0。图1明星发明人的4种创新类型Fig.1Four Types of Innovation by Star Inventors121研究论文数据分析与知识发现(2)标签向量的构建根据明星发明人类型的划分,将复合型、巩固型、突破型和发展型这 4 类明星发明人,记作:D1、D2、D3和D4。同样使用On