基于改进Rocchio的网络信息过滤算法.pdf-资源下载-蜗牛文库-知识共享服务平台

基于改进Rocchio的网络信息过滤算法.pdf

1、信息与电脑2023年第10 期Information&Computer算法语言基于改进 Rocchio 的网络信息过滤算法谭文娣（柳州铁道职业技术学院，广西柳州摘要：由于网络上信息内容庞杂，传统基于内容的过滤方法难以建立准确的类别模板，导致信息过滤效果较差，提出基于改进Rocchio的网络信息过滤算法。文章首先利用数据包捕获技术与协议解析技术获取网络文本信息，其次基于改进Rocchio生成类别过滤模板，最后对比待过滤信息与类别模板的相似度，实现网络信息过滤。实验结果显示，设计的网络信息过滤算法的查全率为9 5.7%、查准率为9 6.8%，具有较好的过滤效果。关键词：改进Rocchio；网络信息

2、；信息过滤；过滤算法中图分类号：TP301Network Information Filtering Algorithm Based on the Improved Rocchio545616)文献标识码：A文章编号：10 0 3-9 7 6 7（2 0 2 3）10-0 7 9-0 3TANWendi(Liuzhou Railway Vocational Technical College,Liuzhou Guangxi 545616,China)Abstract:Due to the complexity of information content on the internet,tra

3、ditional content-based filtering methods aredifficult to establish accurate category templates,resulting in poor information filtering performance.Therefore,an improvedRocchio based network information filtering algorithm is proposed.The article first utilizes packet capture technology andprotocol p

4、arsing technology to obtain network text information.Then,based on improved Rocchio,a category filtering templateis generated.Finally,the similarity between the information to be filtered and the category template is compared to achievenetwork information filtering.The experimental results show that

5、 the designed network information filtering algorithm has arecall rate of 95.7%and a precision rate of 96.8%,which has a good filtering effect.Keywords:improve Rocchio;network information;information filtering;filtering algorithm0引言因为互联网具有开放性，很多不法分子会在人们阅读网络信息的同时，传播一些色情、暴力、封建迷信等威胁社会稳定的信息。张建等人在垃圾信息的识别

6、过滤中引人神经网络，解决了传统方法对未出现关键词的垃圾信息文本过滤能力较差等问题；任永功等人针对用户协同过滤结果多样性较低、覆盖率较小等问题，利用加权三部图设计一种协同过滤方法，实现用户个性化推荐2 。基于此，文章详细研究针对网络信息过滤算法，以期推进我国互联网的健康发展。收稿日期：2 0 2 3-0 3-0 5基金项目：广西教育科学“十四五”规划2 0 2 2 年度高校创新创业教育、高等教育国际化、民办高等教育专项课题“基于科技创新竞赛驱动的高校协同育人双创能力培养路径研究”（项目编号：2 0 2 2 ZJY2972）。作者简介：谭文娣（19 7 3一），女，湖南未阳人，本科，实验师。研究方

7、向：计算机信息系统、计算机基础教育。1网络信息获取网络信息过滤就是过滤互联网中文本信息内容，因此在设计网络信息过滤算法之前，需要获取网络文本信息3。在获取网络文本信息时，文章采用数据包捕获技术捕获网络信息数据包。文章主要选用Winsock2服务提供者接口（ServiceProviderInterface，SPI）技术捕获网络信息数据包。该技术是基于socket的一种标准网络接口技术，无须书写任何代码，仅需将该标准接口插入互联网操作系统，即可捕获所有进出操作系统的数据包。在成功捕获到网络信息数据包后，需要采用协议一7 9 一k=1(3)信息与电脑算法语言Information&Computer解

8、析技术解析数据包，从而得到网络文本信息。利用Winsock2SPI技术捕获的网络信息数据包不仅包含超文本传输协议（HyperText Transfer Protocol，H T T P）、文件传输协议（FileTransferProtocol，FT P）、简单邮件传输协议（SimpleMail TransferProtocol，SM T P）等一系列不同协议的网络封包，还包含了一系列通过Winsock进行网络通信的软件所产生的封包。因此，捕获网络信息数据包后，一定要进行协议解析，才能得到网络信息过滤所需的文本信息。协议解析的过程就是首先判断捕获的各数据包的协议类型，其次根据不同类型格式对数据包

9、进行相应的解析处理，最后获得各封包内的文本信息。因为计算机无法像人类一样可以成句阅读文本信息，所以借助文本表示模型来管理网络文本信息。综合考虑文本表示模型的结构与对词组管理效果，最终选用向量空间模型作为网络信息文本表示模型。假设获取的网络信息文档集合为W=wi,W2,w,)，网络信息特征项集合为Z=z,z2,zm)，那么网络信息特征项z,在文档wi之中的权重qi表达式为(1)W式中：P,为网络信息特征项Pw,的词频，也就是特征项z,在文档w,中出现的频率；Pw,为出现z,的网络信息文档W,的数量。由式（1）可知，如果网络信息特征项z;在文档w,中的权重值较大，说明此时z，的词频较高。假设文本表

10、示模型中各个特征项之间相互独立，那么式（1）所求权值代表特征项的重要程度。在此基础上，以z1,z2,z为坐标轴，将文档w,表示成T维特征向量X=(zizz2,zi)，从而建立网络信息文档的向量空间模型，描述获取的网络文本信息。2网络信息特征选择本文在获取网络信息时，采用本文表示模型来管理文本信息。处理网络文本信息后，获取的网络文本信息转变为众多词组的集合，导致在后续网络文本信息分类过滤中，难以准确分类高维特征空间中的信息5。为在提高网络信息类别模板的过滤精度的同时，降低过多词汇带来的计算压力，在获取网络信息后进行特征选择，使用最少的特征表达网络信息的含义，从而剔除网络文本信息的余特征。3网络信

11、息过滤基于文本表示模型，引人改进Rocchio算法来设计网络信息过滤算法。改进Rocchio算法是一种基于文本2023年第10 期表示模型的分类算法，其分类思路较为简单，主要通过衡量待过滤信息与原型信息之间的距离（相似度），以判定待过滤信息属于哪个类别，从而进行过滤。文本信息划分为若干类，对每一个类文本集进行算术平均，生成可以描述各类文本信息的中心向量，然后根据各向量权重对其位数进行排序，生成类别模板向量。在生成类别模板之后，开始过滤网络信息。因为文章将网络文本信息通过文本表示模型表示为空间向量，所以对文本信息的过滤可以折射成对向量的运算。已知网络文本信息文档w,可以表示成T维特征向量X=(z

12、i,zi2,zit)，假设生成的类别模板向量为Y-(zi1z2,zi)，那么这两个向量的内积计算公式为在式（2）的基础上，匹配网络文本信息特征向量与模板向量，计算二者之间的相似度，表达式为S(X,Y)=cOS=(i=1,j=1 式中：S(X,Y)为网络文本信息特征向量X,与类别模板向量Y之间的相似性；为向量X,与向量Y,之间的夹角。根据式（3）即可判断网络信息向量是否需要过滤，如果与类别模板匹配的最大相似度为S(X,Y)，说明该网络信息文档属于j类别，按照j类别的网络信息文档的过滤需求过滤网络信息即可。在本文设计的网络信息过滤算法中，首先需要获取网络文本信息，构建一个用于表示文本信息的向量空间

13、模型；其次通过特征选择移除低频词汇，确保算法执行效率；最后引人改进改进Rocchio算法，通过对比待过滤网络信息向量与类别模板向量之间的距离（相似度），过滤网络信息。4实验分析采用来自于搜狗实验室的语料库进行仿真实验。该语料库中共有10 个类别的新闻语料，网页规模约为10万篇文档。经过去除重复文本与损坏文本等手工编辑整理，得到实验本文信息共48 0 0 篇，如表1所示。本次实验对基于神经网络的网络信息过滤算法、基于加权三部图的网络信息过滤算法、基于改进Rocchio的网络信息过滤算法共3种网络信息过滤算法进行比较。实验过程中这3种算法均采用相同的过滤条件，并以查工i=1,j=1T(i=1,j=

14、180一信息与电脑2023年第10 期Information&Computer算法语言表1实验文本集情况分类编码类别07汽车08财经10IT13健康14体育16旅游20教育22招聘23文化24军事全率与查准率这两项技术指标来评价信息过滤效果。查全率与查准率的计算公式分别为NC100%MN100%N2式中：C为查全率，值越高表明遗漏的用户感兴趣的网络信息越少；C为查准率，值越高表明过滤出的网络信息和用户实际感兴趣的越相似；N。为检索出的相关文档数量；N,为文档库中的相关文档总数；N2为检索出的全部文档总数。本次网络信息过滤实验的实验结果，如图1和图2 所示。由图1和图2 可知，本文设计基于改进R

15、occhio的网络信息过滤算法比神经网络算法和加权三部图算法的过滤效果要好，算法的平均查全率为9 5.7%，较对照组算法提升了4.6 个百分点、10.1个百分点，平均查准率为96.8%，较对照组算法提升5.5个百分点、10.6 个百分点，说明本文设计网络信息过滤算法的过滤质量更优越。5结语文章研究涵盖网络信息过滤的各个处理阶段，首先捕获网络文本信息数据包，其次通过特征选择以最少的特征表达网络信息含义，再次基于改进Rocchio过滤网络信息，最后通过实验验证了本文设计算法的可行性与可靠性。文章设计的基于改进Rocchio的网络信息过滤算法对推动我国网络技术可持续发展具有重要意义。参考文献1张建，

16、严珂，马祥.基于神经网络的复杂垃圾信息过100文本数目/篇98380520425468605497605425510365(4)(5)改进Rocchio神经网络加权三部图9694%/率专基929088868482图1不同网络信息算法的查全率对比图100989694%/率联基929088868482图2不同网络信息算法的查准率对比图滤算法分析J.计算机应用,2 0 2 2,42(3):7 7 0-7 7 7.2任永功，王宁婧，张志鹏.基于加权三部图的协同过滤推荐算法.模式识别与人工智能,2 0 2 1,34(7):6 6 6-6 7 6.3刘慧婷，李菌捷，郭玲玲，等.基于异构信息网络的紧耦合推荐算法J.华南理工大学学报（自然科学版),2 0 2 1,49(7):6 6-7 5.4李想，杨兴耀，于炯，等.基于知识图谱卷积网络的双端推荐算法.计算机科学与探索,2 0 2 2,16(1):17 6-18 4.5韩浩先，叶春明.基于聚类变分自编码器的协同过滤算法.计算机系统应用,2 0 19,2 8(9):16 2-16 7.0708?07081013141620实验文本分类编码改进Rocchio神经网络加权三部图1013141620实验文本分类编码22222324232481

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？