ImageVerifierCode 换一换
格式:DOC , 页数:3 ,大小:11.50KB ,
资源ID:1349258      下载积分:8 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/1349258.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(2023年基于Scrapy分布式的暗网探测爬虫构建.doc)为本站会员(sc****y)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

2023年基于Scrapy分布式的暗网探测爬虫构建.doc

1、基于基于 ScrapyScrapy 分布式的暗网探测爬虫构分布式的暗网探测爬虫构建建 余志玮 何月顺 摘 要:暗网中存在大量毒品、军火、货币等非法交易网站,对网络环境造成严重危害,为了对暗网进行探测和监控,提出一种基于 Scrapy 分布式的暗网探测爬虫方法。将暗网使用的 socks5 协议转化為爬虫支持的 http 协议,再利用 Python 的Scrapy 爬虫框架对暗网站点进行探测和爬取。使用该方法已发现数以万计的暗网站点信息,包括网站标题、源代码、网站类型等。将暗网代理环境和 Python爬虫相结合,能够让程序对暗网的站点进行探测和爬取,对暗网环境进行很好的探测和监控。关键词:暗网;代

2、理环境;Scrapy 爬虫框架;站点 中图分类号:TP393.0 文献标识码:A 文章编号:1006-8228(2020)04-21-05 Building dark web probe crawler with Scrapy-redis Yu Zhiwei,He Yueshun(School of Information Engineering,East China University of Technology,Nanchang,Jiangxi 330013,China)Abstract:There are a large number of illegal trading websit

3、es such as drugs,arms,and currencies in the dark web,which cause serious harm to the Internet environment.In order to detect and monitor the dark web,this paper proposes a dark web detection crawling method using distributed Scrapy.The socks5 protocol used by the dark web is converted into the http

4、protocol supported by the crawler,and then the dark website points are detected and crawled by using the Scrapy crawler framework of Python.This method finds tens of thousands of dark website point information,including website title,source code,website type,and so on.The combination of the dark web

5、 proxy environment and the Python crawler allows the program to detect and crawl the dark website,and to detect and monitor the dark web environment.Key words:dark web;proxy environment;Scrapy crawler framework;website 0 引言 针对互联网信息泄露问题,人们开始研究并使用匿名网络通信技术,而暗网就是随之发展起来的匿名技术之一。不同于绝大部分明网,暗网的站点都不能被寻常访问,也没有

6、被 baidu、google 等搜索引擎收录,要想使用暗网匿名技术,就需要使用特定的软件,跳过几个中间节点,来达到匿名和防止监测的效果。由于暗网良好的匿名性,被不法分子利用从事地下黑暗交易,如人口贩卖,毒品,情色,军火等1,大大危害了社会安全。暗网匿名技术最早是在上世纪 90 年代被提出,由于其良好的匿名保护效果,不断被研究机构和互联网公司研究和完善,而数字货币-比特币的出现,对暗网上的交易提供了更隐藏的服务机制。现如今,暗网各个站点绝大部分都支持使用比特币来进行各种买卖/交易,买卖双方只知道对方的暗网 id,对其他信息一点都不了解。随着近些年互联网和自媒体的发展,暗网逐渐出现在大众人们的视野

7、中,影视剧中对使用暗网贩卖人口等犯罪行为就有过大量的揭露。许多人出于好奇在网络中寻找进入暗网的方法。所以如何对暗网信息进行探测和爬取监控就显得非常重要。1 暗网研究现状 发展至今,暗网中隐藏服务的站点和资源在数量和质量上已经高于明网,对暗网的探测及研究已经意义重大。但是由于暗网本身的特性:多中间节点跳跃的隐蔽性;频繁更换站点导致的探测不稳定性;没有被百度、谷歌等搜索引擎收录致站点难发现性等问题,导致暗网在横向的数量和纵向的深度都难以探测。国内外许多专家和机构都对暗网做过相关研究。暗网的相关研究主要分为两个方面:一个是基于暗网匿名通信技术本身,通过不断优化匿名通信技术,提升暗网的匿名性、效率性和

8、稳定性等,使得暗网能够有更好的发展;另一个研究方向则是基于暗网的技术原理,寻找暗网空间资源探测的方法和技术2。就暗网空间资源探测的研究方面,上海交通大学的杨溢3等人设计出了 Tor 域名地址采集系统,优化了暗网的访问效率,从明网和暗网采集站点域名;郭晗4等人针对 Freenet 的暗网资源探测进行了研究,freenet 是一种分布式的匿名信息存储和检索系统,发展时间比 tor 洋葱路由还早;汤艳君5等人通过分析暗网通讯的技术原理,利用 selenium 对暗网进行爬取,探测后的暗网信息能够帮助公安部门监控和分析暗网中的有害内容,加大网络监控力度。2 Nunes E,Diab A,Gunn A,

9、et al.Darknet and DeepnetMining for Proactive Cybersecurity Thread IntelligenceC.IEEE Conference on Intelligence and Security Informatics,2017:7-12 3 杨溢,郭晗,王轶骏,薛质.基于 Tor 的暗网空间资源探测J.通信技术,2017.50(10):2304-2309 4 郭晗,王轶骏,薛质.基于 Freenet 的暗网空间资源探测J.通信技术,2017.50(9):2017-2023 5 汤艳君,安俊霖.基于 Tor 的暗网数据爬虫设计与实现J.信

10、息安全研究,2019.5(9):798-804 6 李亚.暗网数据源分类算法的研究和实现D.成都理工大学,2013.7 Biryukov A,Pustogarov I,Weinmann R P.Trawling for TorHidden Servics:Detection,Measurement,DeanonymizationC.Security and Privacy,2013:80-94 8 Guitton C.A review of the available content on Tor hiddenservices:The case against further developmentJ.Computers in Human Behavior,2013.29(6):2805-2815 9 趙志云,张旭,罗铮.“暗网”应用情况及监管方法研究J.知识管理论坛,2016.2.10 林海伦,熊锦华,王博等.基于领域知识抽样的深网资源采集方法J.中文信息学报,2016.2:175-181 11 Li K,Liu P,Tan Q,et al.Out-of-band discovery andevaluation for tor hidden servicesJ.SAC,2016:2057-2062

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2