收藏 分享(赏)

基于RoBERTa与改进局...群因子算法的专利新颖性测量_廖列法.pdf

上传人:哎呦****中 文档编号:2563904 上传时间:2023-07-12 格式:PDF 页数:8 大小:1.60MB
下载 相关 举报
基于RoBERTa与改进局...群因子算法的专利新颖性测量_廖列法.pdf_第1页
第1页 / 共8页
基于RoBERTa与改进局...群因子算法的专利新颖性测量_廖列法.pdf_第2页
第2页 / 共8页
基于RoBERTa与改进局...群因子算法的专利新颖性测量_廖列法.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、投稿网址:年 第 卷 第 期,():科 学 技 术 与 工 程 引用格式:廖列法,姚秀,李奎 基于 与改进局部离群因子算法的专利新颖性测量 科学技术与工程,():.,():.基于 与改进局部离群因子算法的专利新颖性测量廖列法,姚秀,李奎(.江西理工大学软件工程学院,南昌;.江西理工大学信息工程学院,赣州)摘 要 现有的专利新颖性测量方法需要依赖特定的领域知识以及专家的介入,性能差且耗时长,为此,提出了一种不依赖特定领域知识及专家的全自动化系统的识别新颖性专利的方法。首先利用鲁棒优化的 方法(,)表示专利向量,以解决需要依赖技术领域的知识来表示专利的多义词问题;其次,利用数据点的密度分布并结合信

2、息熵改进局部离群因子(,)算法来确定离群点个数及数据点集,提高离群点的检测精度,结合 与改进的 在数值尺度上度量专利的新颖性。实验验证表明,所提方法测量的专利新颖性的得分与现有文献中的相关专利指标显著相关,并且识别出的新颖性专利具有更高的技术影响。关键词 专利新颖性;信息熵;局部离群因子算法;离群点检测中图法分类号;文献标志码 收稿日期:;修订日期:基金项目:国家自然科学基金(,)第一作者:廖列法(),男,汉族,江西玉山人,博士,教授,硕士研究生导师。研究方向:自然语言处理。:。通信作者:姚秀(),女,汉族,江西吉安人,硕士研究生。研究方向:自然语言处理。:。,(.,;.,),(),;在日益增

3、长的庞大专利数据中高效地挖掘出新颖性专利,对于企业的战略部署及发展方向是十分重要的,可以为企业节省时间并带来经济利益。当前专利新颖性测量方法主要有基于专利引用、专利分类分析、专利文本挖掘等方法。早期针对专利新颖性测量的方法是侧重于以专家为中心的方法,而随着专利数据的爆发式增长及市场的快速变化,以专家为中心的方法无法对技术和市场的快速变化做出反应。对于此,文献利用专利的引文信息来进行测量,但是这种方法仅适用于专利的反向引用专利数量较少的情况;文献提出了一种专利分类信息的测量方法,但由于其分类代码的局限性,专利分类信息无法区分出高相似技术类别的专利。上述方法虽然在一些测量情况下具有可观的前景,但是

4、仅依赖于引用信息作为技术知识的流动或专利所分配的各种分类代码的共同出现,不能达到完全捕捉专利的技术特征的效果。为了弥补这个不足,文献提出了投稿网址:一种基于深度学习模型的专利测量评估框架,可以捕捉专利文本的详细语义特征。文献考虑到了专利的技术特征,弥补了基于专利引用或分类方法的不足,但其需要特定领域的知识来解决专利技术词语中的同义词或反义词,会导致测量过程的时耗无法承受、测量精度误差大,进而需要更科学的方法来有效地衡量专利的新颖性。针对以上问题,现提出一种基于鲁棒优化的 方 法(,)与改进局部离群因子(,)算 法 的 专 利 新 颖 性 测 量 方 法,通 过 结 合与改进的 算法,只需要专利

5、文件,就可以实现全自动化系统的识别新颖性专利。目前有许多深度嵌入和异常检测技术可用于专利新颖性的测量,为了更好地解决专利技术词的多义词问题,选择双向 的(,)的改进版 来对专利进行向量化表示,提出了动态掩码任务,调整了训练批次大小并加入了更多的数据,在多个自然语言处理任务上取得不错效果。在不同类型的异常检测技术中,采用 并对其进行了改进,可以在数据分布不均匀、模式不一致的情况下识别局部异常点,利用数据点的密度分布并结合信息熵改进局部离群因子算法来确定离群点个数及数据点集,提高离群点检测的精确度。首先,利用 对专利文本进行向量化表示,解决需要依靠专利特定技术领域的知识来解决专利技术词语中的多义词

6、问题,避免导致专利向量化高费时并且准确率降低。其次,对 进行改进,引入信息熵加权法对专利数据各个维度赋予不同的权重,并结合数据点的平均密度以确定大致的离群点个数,减少数据集对专利技术领域知识的依赖,提高离群点检测的精确度,进而更好地识别出新颖性专利。最后,结合深度学习模型 与改进的 实现对专利的全自动化新颖性检测,实现跨领域的专利检测,并通过两项验证工作来检验识别出的新颖性专利的有效性。相关工作专利的引文信息已被广泛用于衡量专利的新颖性,专利引文信息提供了技术知识至关重要的定向关系,研究人员利用专利引文信息来确定技术的联系和变化趋势,文献通过简单的计算专利反向引用的数量或分析其分布来评估专利的

7、新颖性。专利分类方面,文献在专利分类信息代表专利技术特征的前提下,通过比较专利的分类代码和先前专利的分类代码来衡量专利的新颖性。文献进一步提出使用专利分类代码组合来衡量专利技术的新颖性,将分类代码视为专利发明的技术组成部分,并开发了一种熟悉度指标,该指标随着以往发明中分类代码及其组合的存在而增加。文献通过以专利技术组合分析为基础,从而充分整合企业技术水平分析、技术潜力分析和专利新颖性分析。然而,利用专利的反向引用和分类信息的方法来衡量专利的新颖性还存在很大的局限性,由于引用信息可以由发明者主观组织,他们的主观性可能会影响引文,并且专利分类信息无法区分技术类别相似程度非常高的专利。为了更科学有效

8、地挖掘出新颖性专利,文献运用自然语言处理技术对专利摘要文本进行挖掘识别出不同研究领域的关键技术词,再采用生 成 拓 扑 映 射(,)算法绘制技术地图,通过对空白新兴技术点逆向映射进而实现对技术创新机会的有效识别。文献开发了一种基于新颖性检测统计技术的专利挖掘方法,利用潜在语义分析,提取专利文本中单词之间的隐性关系,缓解词汇不匹配问题,减少专家选择关键字的烦琐工作,以挖掘出新颖性专利。文献通过结构化关键字来探索专利内部与技术机会之间的关联,并使用文本挖掘技术进行技术机会识别,但在识别技术机会的过程中无法考虑详细的技术特性,因为只使用了概括特性的关键词信息。文献提出了一个基于机器学习的框架,该框架

9、使用语义分析以及和文献计量分析等方法,根据专利的()结构之间的相似性来衡量专利的新颖性。文献对专利数据应用新颖性检测技术来识别技术机会,利用潜在语义分析(,)和基于角度的异常值检测方法(,)来识别新颖性专利。这些方法虽然有效考虑了专利的技术特征,弥补了先前研究的一些缺点,但是需要特定领域的知识来解决专利技术词语中的多义词问题,从而会导致很大一部分时间消耗在各个领域知识的引入上。为了解决专利技术词汇的多义词问题,利用深度学习模型 来对专利数据进行向量化表示,并结合改进的 来提高离群点的检测,并通过两项验证工作来检验识别出的新颖性专利的有效性,实现对专利的全自动化新颖性检测,不需要依赖特定的领域知

10、识以及专家的介入。,()廖列法,等:基于 与改进局部离群因子算法的专利新颖性测量投稿网址:方法.研究框架提出了一种结合 与改进 的专利新颖性测量方法,该方法的核心是具有动态掩码的 模型以及改进的基于密度 算法。前者用于将给定的专利文档表示为具有上下文语义的向量,能较好地解决一般词嵌入模型生成的向量不能解决专利技术词的多义词问题;后者可以在前者的基础上进一步量化专利向量,在数值尺度上计算每个获得的专利向量的新颖性分数。专利新颖性测量方法大致流程如图 所示,主要分为以下 个步骤。图 专利新颖性测量流程图.步骤 专利数据的收集,美国专利及商标局是研究的数据收集来源。使用专利文本中的权利要求书来进行向

11、量表示,因为专利权利要求书中描述了专利发明的技术和法律范围,比专利其他文本部分(摘要等)包含更全面和准确的信息。步骤 利用 对收集好的专利数据进行预处理,主要包括删除停用词、特殊字符、标点符号等。步骤 利用 将预处理好的专利权利文本表示为具有上下文语义的专利向量,专利权利要求书中的技术特征越相似,其对应专利表示的向量在向量空间模型中的距离就越近。步骤 在构建好的专利向量空间的基础上,通过改进的 计算以向量形式表示的每项专利的新颖性得分。但是所测量出的新颖性得分很高的新专利并不是突破性技术的直接标志,而是具有被接受为突破性技术的高潜力的专利。因此还需要进行相关验证才能证明新专利的有效性,以往的验

12、证方法仍需要依靠专家的领域技术知识,为了实现全自动化的专利新颖性测量,进行以下两项验证工作,来检验本文所提方法的可行性,其一为所提方法测量出的专利新颖性得分与先前文献中的专利指标得分进行相关性分析;其二为使用前向引用对新型专利与其他专利之间的技术影响的比较分析。.预训练模型 模型是 模型的强化版本,模型使用了强大的特征提取模块,结合自注意力机制针对同一个词,不同的上下文环境会产生不同的语义信息,即同一个词会有不同的,从而能解决传统文本向量表示模型不能解决专利技术词汇的一词多义问题。模型结构如图 所示,其中为句首标志,不同于 中使用的是静态掩码,使用了动态掩码:每次向模型输入一个序列时都会生成新

13、的掩码模式,这样,在大量数据不断输入的过程中,模型会逐渐适应不同的掩码策略,学习不同的语言表征。表示分句标志,其用作不同句子的分割符。为 模型的简写,通过 模型学习词的上下文动态表示,得到表征能力更好的词向量。,为预训练得到的动态词向量表示图 模型.将单词本身的字符向量()、分句向量()和位置向量()相叠加,将叠加后的嵌入向量作为输入,可以获取整个句子的词级别的上下文向量表示,并且 使用更多的数据和更大的批次训练,可以更好地提高词嵌入的质量,有利于提取出高质量的语义信息。利用 中的多头注意力机制,从向量表达集合中抽取特定的向量来进行加权组合,通过对不同词向量赋予不同科 学 技 术 与 工 程

14、,()投稿网址:的权重来加强对某些重要词的关注,做到不同语境下对词语的不同理解。注意力机制的核心公式为(,)|()式()中:为查询向量;为表示输入特征的向量;、为计算 权重的特征向量,它们都是由输入特征得到的;(,)是根据关注程度对 乘以相应权重;的作用是使得训练过程中梯度值保持稳定;()函数进行归一化处理。在得到自注意力输出后,多头注意力计算公式为(,)(,)()(,)()式中:、分别为、的权值矩阵。利用 模型来进行专利文本向量表示,利用多头注意力机制去优化每个词汇的不同特征部分,从而均衡同一种注意力机制可能产生的偏差,让词义拥有来自更多元的表达,解决专利词汇的同义词和反义词问题。.改进的局

15、部离群因子算法 是一种经典的基于密度的局部离群因子检测算法。每个数据点都有一个离群因子值,它依赖于局部密度,可以根据局部密度来判断该点是否为离群因子,离群因子值为该点邻域内所有点的平均局部可达密度与点 的局部可达密度做比较,这个比值越大于,表明 点的密度越小于其周围点的密度,点越可能是离群点;这个比值越小于,表明 点的密度越大于其周围点的密度,点越可能是正常点。因此,如果数据点是一个异常值,就会大于,因为它相对于周围的数据点的相对密度更低。如果不是,则 接近。将 应用于 获得的专利向量时,对于向量空间模型中局部密度较低的专利,较高,这意味着该专利的相似专利较少。为了更好地理解这一点,如图 所示

16、展示了两个数据 和的 示例,前者具有较高的局部密度,而后者具有较低的局部密度。算法中的密度是通过点与点之间的距离来计算的,算法采用的是欧氏距离,当数据集具有一些特殊分布时,样本间的欧氏距离很难较好地检测数据之间的相似程度。并且对于新颖性专利的个数未知的专利数据集,很难选择合适的参数 来保证离群点数量合理。于是,提出利用数据点的平均密度并结合信息熵改进 算法,该算法在所提方法中的作用是在数字尺度上衡量专利的新颖性,不仅可以减少具有未知异常点的数据集对专利技术领图 不同局部密度数据点的.域知识的依赖,而且可以降低 算法误算异常点的概率,提高离群点的检测精度。首先根据对数据点的不同分布密度,找出最有可能成为异常值的所有数据点集,然后,利用信息熵加权 算法检测数据集,得到结果,数据点集 与 相交,得到最终离群数据点集。平均密度算法的定义及公式如下。定义 邻域:以数据 为中心点,半径为 所构成的范围。定义 邻域平均距离:邻域内数据点之间距离的均值,其公式为()()(,)()()式()中:()为 的 领域内的数据点的数量。定义 点密度:邻域内点的数量与 邻域平均距离的比值,其公式为()()()()

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2