1、自动化技术与应用2023 年第 42 卷第 6 期计算机与通信技术Computer and Communication TechnologyTechniques ofAutomation&Applications基于样本数据重复性的分布式数据库自动化查询方法许 伟,胡 婷(宿迁市烟草专卖局(公司),江苏 宿迁 223800)摘要:为提高分布式数据库数据的查询效率和准确率,设计一种考虑样本数据重复性的分布式数据库自动化查询方法。提取数据信息的主要特征,确定主要信息方程的权衡函数,整合重复样本信息;分段数据库内的数据,明确数据特征,自适应分解得出自动化查询聚类中心和目标函数;采用ICTCLAS分词
2、系统计算关键词在文本中出现频率,根据灰狼优化算法求得最优函数集获取最优参数集;结合Shingle检测并标记样本信息匹配度,完成最终数据查询。实验结果表明方法查询准确率高于90%,平均耗时低于35 s,可被广泛推广使用。关键词:分布式数据库;模糊聚类分析;F-Measure方法中图分类号:TP274文献标识码:A文章编号:1003-7241(2023)06-0087-04Automatic Query Method of Distributed DatabaseBased on Repeatability of Sample DataXU Wei,HU Ting(Suqian City Toba
3、cco MonopolyAdministration(Company),Suqian 223800 China)Abstract:In order to improve the query efficiency and accuracy of distributed database data,an automatic query method of distributed data-base based on repeatability of sample data is designed.It extracts the main features of data information,d
4、etermines the trade-offfunction of the main information equation,and integrates the repeated sample information;It segments the data in the database,clarifies the data characteristics,and adaptively decomposes to obtain the automatic query clustering center and objective func-tion;The ICTCLAS word s
5、egmentation system is used to calculate the frequency of keywords in the text,and the optimal func-tion set and the optimal parameter set are obtained according to the gray wolf optimization algorithm;Combined with shingle,de-tect and mark the matching degree of sample information to complete the fi
6、nal data query.The experimental results show that thequery accuracy of the proposed method is higher than 90%and the average time is less than 35 s,which can be widely used.Keywords:distributed database;fuzzy clustering analysis;F-Measure method收稿日期:2022-02-09DOI:10.20033/j.1003-7241.(2023)06-0087-0
7、4.1引言我国社会经济和消费水平提升,加速了科学技术进步,特别是近年来电子计算机在日常生活中被广泛应用,数据信息和并发访问量的快速增长,导致数据库中存有众多重复数据。为方便查找目标信息,国外研究人员尝试建立非关系数据库,将信息划分至不同数据库中,在应用模块中同源汇总,以缓解重复数据内存占用率高的问题。国内研究人员石艳丽1通过前台端管理、借阅信息查询两部分,为用户提供可视化查询界面,帮助个体筛选已借出书籍,实现借阅信息查询;唐运乐2提出一种基于动态分布式聚类算法的大数据查询处理方法。划分输入的数据,以RRD格式存储;采用划分和层次混合动态聚类算法对数据进行分布式聚类;通过K近邻查询方式获得查询结
8、果。但是,上述方法都忽视了重复信息对查询的影响,导致查询结果内包含过多重复性信息,干扰用户判断。分布式数据库中的关系数据库,借助于集合代数等概念和方法来处理数据库中的信息,非关系数据库则可以弥补关系数据库的缺陷,将信息进行二次转化,便于有效避开重复数据,完成自动化查询。同时分布式数据库也叫做逻辑数据集或耦合数据库,即指利用物理存储介质模块进行分散存储,重组成存储空间和集成参数耦合的数据库。该数据库具有存储空间大、集成性好等优点。随着数据规模不断扩大,分布式数据库显示出良好的应用前景,但同时也会受到数据耦合作用影响,查询结果会出现一定误差。为提高查询结果的准确性,提出了考虑样本数据重复性的分布式
9、数据库自动化查询方法。以设计的数据样本整合存储系统为基础,提取出文本关键词特征,使用Shingle算法验证查询结果的召回率,通过仿真实验,验证了所提方法具有更高的准确率,可被推广应用。87计算机与通信技术Computer and Communication Technology自动化技术与应用2023 年第 42 卷第 6 期Techniques ofAutomation&Applications2考虑到样本数据重复性的信息整合提高分布式数据库中信息输送路径匹配精度,可以有效避免重复数据的产生,便于得出精准的查询结果,因此需要针对多种样本数据进行整合。首要任务为集成数据库信息,选择数据库中初始
10、数据和字符串作为主要特征集的提取向量3,获得特征指标权重,随后使用分布式数据库的信息积累分布功能,整合成数据信息。具体步骤如下:设wf为函数Y(t)的传输结束频率,Y(n)表示Y(t)的集合,公式(1)表示需整合的多层分布式中的数据集。(1)式中,S0表示尺度函数,Sk表示在高频时段的数据差值,dk表示分布式数据收集到的初始信息集。设devey为分布式数据库中识别率偏低的数据集,gppet为需要整合的信息量,mgyn表示需要集成的信息量必须满足的集成约束条件,通过式(2)得到初始数据方程:(2)式中,dghk表示信息库中的关联性数据4,ffil表示数据库中的主要特征向量。使用dgio和drjo
11、表示重复度最高的数据矩阵,kert为不同元素信息存储模块,eety代表查询容错率,构建数据库中的主要信息方程:(3)式中,vfip表示数据采样位置的位置确定参数,mkk表示分布式数据库中的信息量大小。设dgik为数据的关联信息,Rqwe表示数据库的特殊范数,得出分布式数据库信息的权衡函数:(4)式中,sdfg表示数据信息联合系数的分散值,fegh为数据属性和时空分布状态。如果用fh表示数据参数的近似取值,rrhj表述为数据属性系数的权重向量空间,便可提出数据库异构数据信息的累积分布函数:(5)式中,wdgj表示异构信息在整合过程中的周期误差,则被描述为数据源信息的采样周期。根据式(5)计算结果
12、,利用分布式数据源中的主成分分布规律,再次整合信息资源便有:(6)式中,ssfgh代表分布式数据库中,数据信息源主成分的变化规则,通过上述过程,将数据库内重复5的、不完整信息整合在一起,降低后续检索结果内出现多个相同信息。3查询目标函数确定对数据进行分段6辨识各段属性,划分数据特征,分析数据存储结构特征,若存在一致特征则判定该二者为重复数据,需要再次进行信息整合。使用X表示数据存储样本集合,n为分布式数据库中的数据属性,数据属性特征为e,则得到一组特征集合1,2,i。令Q为整合后数据集合在分布式数据库中等待查询样本量,可将数据库的特征聚类参量模型S作出如下判定:(7)(8)(9)式中,p(i)
13、表示数据库中的存储数据样本序列值,u=E(x)代表集合维数,ui代表数据库内交叉数据,T代表交叉数据的维度。使用模糊聚类方式整合样本获得存储向量空间f(x,y),据此计算(p+q)阶结合矩阵:(10)式中,(x,y)代表数据分类后的中心点,利用自适应融合特征分解后的全部信息,获取到分布式数据库中自动化查询的聚类中心位置:(11)式中,为自动化查询的聚类中心点。利用邻域搜索分解数据库中的特征信息,构建查询目标函数:(12)式中,xi表示自动化查询信息流中的特征数据。根据上式,给定一个数据图G=(V,E)和关键词Q=q1,q2,qt,随后查询节点,自适应调节权重,得到模糊度点集合v1,v2,vn。
14、4分布式数据库的自动化查询处理文本信息的关键是分析目标语言的词法,分词准确度和速度两个指标会相互作用、相互影响。为防止出现分词速度快导致结果不准或是分词准确但速度过慢的现象,本文采用ICTCLAS作为分词系统作为自动化算法载体,系统能够均衡速度与准确度指标,独立实现百万词库的高速查询工作,内存占用率也很小7。88自动化技术与应用2023 年第 42 卷第 6 期计算机与通信技术Computer and Communication TechnologyTechniques ofAutomation&ApplicationsTF-IDF(Term Frequency-Inverse Documen
15、t Frequency,术语频率-逆文档频率)是一种用于信息检索与数据挖掘的常用加权技术,使用ti表示关键词,计算关键词在文本中出现频率,构建TF方程式:(13)式中,nij为一组词汇在文本dj中的出现次数,nkj为dj中nij出现的次数和。将IDF逆向频率作为考量词汇重要性的依据,通过总文本数除以包含该词汇的文本数获得,选择对数将IDF描述为:(14)式中,|A|表示词库总文本数;含有关键词|j:tidj|的文本总数为ti。重要度随着关键词在文本中出现频率增加而提高,反之,若该词可有可无,那么它出现频率也比较低。TF-IDF作为衡量关键词对文本重要程度的方法,优势是可甄别出毫无用处的部分词汇
16、,当使用IDF计算得出的文本数和关键词ti相同时,idfi会等于0,说明该组关键词与文本主题无关,可以排除。以Shingle算法(即子序列或数据块)中的第n个权值wj(j=1,2,n)作为单个信息的位置向量,取值通常规范为wj1,5,权重值可在1-5之间任意选取整数。排列权重的方式很多,本文采用GWO算法(灰狼优化),求得最优函数集a=(w1,w2,wn),从而获得最佳参数集w1,w2,wn。每次更新权重值后,结合Shingle对样本信息进行记录检测,执行TF-IDF重复数据筛选操作,即可根据式(15)-(19)求得灰狼适应度,精准率和召回率公式为:(15)(16)式中,用TP来表示目前正查询的正类数据,是指原本就被归类成重复且标记出的数据;FN代表正类查询为负,指查询数据失误,将重复数据当作正常数据;FP则被描述为将负类识别为正类的数据,即指不是重复数据,却被检测为重复数据8。根据上式计算结果,利用F-Measure方法对查询重复数据的召回率、准确率进行加权调和平均计算,便有:(17)如果出现a=1,即:(18)F1可综合描述方法的准确率与召回率,当F1取值结果越高,就说明查询结果越