基于粒子群算法的科技创新数据检索系统设计

资源描述

1、电子设计工程Electronic Design Engineering第31卷Vol.31第15期No.152023年8月Aug.2023收稿日期：2021-12-24稿件编号：202112155基金项目：国能大渡河流域水电开发有限公司科技创新项目（GJNY-DDH-2020-009）作者简介：马芳平（1977），男，江苏宜兴人，硕士研究生，高级工程师。研究方向：水工结构工程、水电工程智能建造。随着信息化社会的进步，数字文献信息资源的管理和检索方法有了很大的改进，但在检索时会出现数据检索不安全、数据检索效率低的问题，导致数据资源共享出现了严重的“数据孤岛”情况。因此，建立一套完整的科技创新数据

2、检索体系是十分必要的。有研究人员提出深度学习驱动的跨模态数据检索方法，建立了基于深度学习的多模式信息检索模基于粒子群算法的科技创新数据检索系统设计马芳平，李林，郭金婷，柳玉兰，徐镭梦（国能大渡河流域水电开发有限公司，四川成都 610095）摘要：当前使用的深度学习驱动、基于哈希算法的数据检索方式，容易受到原始数据集冗余信息和噪声影响，存在检索查准率和查全率不高的问题，因此提出了基于粒子群算法的科技创新数据检索系统设计。使用检索引擎构建索引库群，设计检索数据存储模块、关联导航模块、数据分词流程。利用粒子群算法求解分词最短路径，根据数据分词处理结果，获取查询关键词对应的查询分词向量，完成数据检

3、索，以此作为分词结果，避免系统检索受到原始数据集冗余信息和噪声影响。由实验结果可知，该系统查准率最高为96%，查全率最高为97%，具有高效检索效果。关键词：粒子群算法；科技创新数据；检索；查准率；查全率中图分类号：TP311文献标识码：A文章编号：1674-6236（2023）15-0066-04DOI：10.14022/j.issn1674-6236.2023.15.014Design of scientific and technological innovation data retrieval system based onparticle swarm optimizationMA F

4、angping，LI Lin，GUO Jinting，LIU Yulan，XU Leimeng（Guodian Dadu River Drainage Area Hydroelectricity Development Co.，Ltd.，Chengdu 610095，China）Abstract:The current data retrieval method driven by deep learning and based on hash algorithm is easyto be affected by the redundant information and noise of t

5、he original data set，and the retrieval precisionand recall are not high.Therefore，the design of scientific and technological innovation data retrievalsystem based on particle swarm optimization algorithm is proposed.Use the retrieval engine to build theindex library group，design the retrieval data s

6、torage module，association navigation module and dataword segmentation process，use the particle swarm optimization algorithm to solve the shortest path ofword segmentation，obtain the query word segmentation vector corresponding to the query keywordaccording to the data word segmentation processing re

7、sults，and complete the data retrieval.This is theresult of word segmentation to avoid the influence of redundant information and noise of the original dataset.The experimental results show that the system has the highest precision of 96%and the highest recallof 97%.It has efficient retrieval effect.

8、Keywords:particle swarm optimization；scientific and technological innovation data；retrieval；precision；recall-66型，在该模型上，结合深度学习的强大学习与表达能力，采用多标记相似度测量与建模训练技术，实现科技创新数据的检索1；还有研究人员提出基于哈希算法的异构多模态数据检索研究方法，通过对图像和文字的语义建模，以保证在模式中的语义一致性。采用 CCA算法融合文字与图像的语义，产生最大关联矩阵，实现对科技创新数据的检索2。然而，上述方法受到原始数据集冗余信息和噪声影响，导致检索结果不精准。

9、为此，提出了基于粒子群算法的科技创新数据检索系统设计。1系统硬件结构设计基于粒子群算法的科技创新数据检索系统硬件结构如图1所示。图1系统硬件结构由图 1 可知，该系统硬件结构是由四个部分组成的，分别是语义查询系统内核、语义全文检索系统内核、语义定义与注册系统、综合检索系统。基于本体论的语义搜索可以准确地对数据进行搜索，而基于语义的全文搜索系统则可以为整个搜索库提供一个具体的关键词3。该结构建立在一个统一的全文检索系统之上，包括索引、中文分词、搜索模式等。以粒子群算法为基础的综合检索系统，也能给使用者提供一个较为便捷的查询和展示界面4。1.1检索引擎在检索服务器方面，按照所建立的索引库及整个系统

10、的特征进行检索，并给出了相应的逻辑结构，如图2所示。图2检索引擎在解析过程中，根据代理服务器的查询请求，对查询请求进行分词处理，得到一系列关键字，然后根据这些关键字之间的逻辑关系，得到一条查询语句5；采用哈希方法，将索引库中的索引关键词指派到各自的检索查询器中，根据搜索语句的关键词，在索引库中进行检索，产生对应的文档链接，再根据关键词之间的逻辑联系，将相关结果和查询的相关性一同传送至最后的循环6。1.2检索数据存储模块检索数据存储模块通过预定义的协作策略，实现系统各功能模块的调用，并进行数据交互，实现协同工作7。该模块所用的工具是一个动态的数据存储模块，其结构如图3所示。图3检索数据存储模块检

11、索数据存储模块是可移动的，外部硬盘的引进使储存于存储器装置中的主机装置变得更小巧、更便于携带。该存储器装置有两个存储区域，其中区域 1 用来记忆储存资料，外部装置不可访问该区域；区域 2用来储存已加密的安全数据的，外部装置可访问该区域，并且加密的安全数据是区域 1 中数据的加密版本8-10。马芳平，等基于粒子群算法的科技创新数据检索系统设计-67电子设计工程 2023年第15期1.3关联导航模块关联导航模块如图4所示。图4关联导航模块在相关联导航模块中有 35个关键词和一个长的单词，通过首页、内页的宣传链接来判定这些词是否为热门词汇11。如果导航中的导航模块以长字开头，重点突出，且在关键词排行

12、榜中有更多的内页，那么网站的排名将会更好，百度主页的速度也会更快，快速提升了科技创新数据检索速度12。2系统软件部分设计2.1基于粒子群算法的数据分词处理由于词串是在通道中传送的，通道中存在噪声干扰，使词串失去了边界标志变为汉字串。为此，提出了基于粒子群算法的数据分词研究。数据分词流程如图5所示。图5基于粒子群算法的数据分词流程在词典的基础上，找到所有可能出现的词，并构造一个有向无回圈的分词13。每一字与图表中的一条有向边对应，并将其分配到相应的长度（权重）。在此基础上，采用粒子群算法计算从起始到结束的最短路径，并将其输出作为分词的结果14。粒子群求解过程为：设粒子群算法的种群规模为m，连续演

13、化的时间为t，该时间段内的活动量可表示为：Q(t,ai)=(t,ai)-(t-1,ai)（1）式中，(t,ai)表示粒子ai在连续演化的时间内的适应值。如果粒子在连续演化时间内被选择参加飞行，则新的自适应分词表达式为：f(t,ai)=log2Q(t,ai)（2）式中，表示可调参数。当粒子活动量较小时，新的自适应分词值较小，在随后的时间里，优先参加飞行，这会强迫系统的熵值增大15。群体中的弱小粒子具有更大的可供选择的可能性，使得求解空间中的探索区域和最佳粒子的驻留时间大大增加，改善算法的局部搜索性能，同时也避免了大规模的粒子聚集，保证了群体的多样性。该方法将待优化的各向异性作为最优参数，并对其进

14、行了速度、位置的修正，使其在最优解空间内进行最优解计算。2.2检索流程设计综合上述基于粒子群算法的数据分词处理过程，设计的检索流程如下所示：步骤一：以各个粒子的位置矢量为控制参量，求出各个粒子的适配值，随机地对粒子的动态和行为进行初始化，决定最大可容许的重复次数，并将链接指向网页16。通过优化二元函数，寻找最优粒子并对其编码，评估链接最终价值。按照链接价值依次排序链接，并将相应的地址存入待搜索队列之中，由此确定粒子的最优位置。步骤二：利用数据分词处理结果完成了对系统中的所有技术创新资料的分词，并在后台进行；步骤三：当用户输入待检索的关键词后，由数据分词处理步骤分词处理关键词，由此产生对应的分词

15、矢量；步骤四：确定各个粒子的全局最优位置，并对文档特征矢量表中的全部记录进行了相关分析；步骤五：根据相关程度进行分类，最终回归到相应的用户文件集中，实现了数据的检索。3实验3.1科技创新数据源导入由于技术创新的数据来源是外部资料，因此在-68进行研究时必须将数据来源的基本参数引入其中。图6中显示了科技创新数据源的输入过程。图6科技创新数据源导入实现流程由图 6可知，在该设计模式下，使用者将数据来源的参数信息填入到视图层次，并以 URL的形式传送至模型层。通过调用 Controller功能来获得 URL，将分析结果作为返回的数值传递到模型层中。模型层根据返回值的判别结果，通过适当的加载量对数据进

16、行分析。3.2评价标准采用的评价标准是数据检索中的经典指标，即查准率和查全率，其公式分别为：P1=xmimi（3）P2=xmini（4）式中，xmi是检索结果以科技创新数据为主的检索数目；mi是检索集合中总数据量；ni是从所有数据源中统计得到的与科技创新数据相关的数据量。3.3实验结果与分析基于评价标准，分别使用深度学习驱动的跨模态数据检索、基于哈希算法的异构多模态数据检索和基于粒子群算法的检索系统，对比分析检索查准率和查全率，如图7所示。由图 7 可知，使用深度学习驱动的检索方法查准率最高为77%，查全率最高为70%；使用基于哈希算法的数据检索方法，查准率最高为80%，查全率最高为77%；使用基于粒子群算法的检索系统，检索查准率和查全率均较高，其中查准率最高为96%，查全率最高为 97%，均高于另两种方法。这是由于文中设计的检索系统，通过基于粒子群算法的数据分词处理步骤，能够改善数据干扰问题，提高查准率和查全率。4结束语设计的基于粒子群算法的科技创新数据检索系统，通过粒子群算法对分词进行实时加权，通过在线调整，使系统具有自适应性，使得检索结果更加精准。经过对上述系统的分析，该系统真正

展开阅读全文

基于粒子群算法的科技创新数据检索系统设计_马芳平.pdf