1、基于基于 ScrapyScrapy 分布式的暗网探测爬虫构分布式的暗网探测爬虫构建建 余志玮 何月顺 摘 要:暗网中存在大量毒品、军火、货币等非法交易网站,对网络环境造成严重危害,为了对暗网进行探测和监控,提出一种基于 Scrapy 分布式的暗网探测爬虫方法。将暗网使用的 socks5 协议转化為爬虫支持的 http 协议,再利用 Python 的Scrapy 爬虫框架对暗网站点进行探测和爬取。使用该方法已发现数以万计的暗网站点信息,包括网站标题、源代码、网站类型等。将暗网代理环境和 Python爬虫相结合,能够让程序对暗网的站点进行探测和爬取,对暗网环境进行很好的探测和监控。关键词:暗网;代
2、理环境;Scrapy 爬虫框架;站点 中图分类号:TP393.0 文献标识码:A 文章编号:1006-8228(2020)04-21-05 Building dark web probe crawler with Scrapy-redis Yu Zhiwei,He Yueshun(School of Information Engineering,East China University of Technology,Nanchang,Jiangxi 330013,China)Abstract:There are a large number of illegal trading websit
3、es such as drugs,arms,and currencies in the dark web,which cause serious harm to the Internet environment.In order to detect and monitor the dark web,this paper proposes a dark web detection crawling method using distributed Scrapy.The socks5 protocol used by the dark web is converted into the http
4、protocol supported by the crawler,and then the dark website points are detected and crawled by using the Scrapy crawler framework of Python.This method finds tens of thousands of dark website point information,including website title,source code,website type,and so on.The combination of the dark web
5、 proxy environment and the Python crawler allows the program to detect and crawl the dark website,and to detect and monitor the dark web environment.Key words:dark web;proxy environment;Scrapy crawler framework;website 0 引言 针对互联网信息泄露问题,人们开始研究并使用匿名网络通信技术,而暗网就是随之发展起来的匿名技术之一。不同于绝大部分明网,暗网的站点都不能被寻常访问,也没有
6、被 baidu、google 等搜索引擎收录,要想使用暗网匿名技术,就需要使用特定的软件,跳过几个中间节点,来达到匿名和防止监测的效果。由于暗网良好的匿名性,被不法分子利用从事地下黑暗交易,如人口贩卖,毒品,情色,军火等1,大大危害了社会安全。暗网匿名技术最早是在上世纪 90 年代被提出,由于其良好的匿名保护效果,不断被研究机构和互联网公司研究和完善,而数字货币-比特币的出现,对暗网上的交易提供了更隐藏的服务机制。现如今,暗网各个站点绝大部分都支持使用比特币来进行各种买卖/交易,买卖双方只知道对方的暗网 id,对其他信息一点都不了解。随着近些年互联网和自媒体的发展,暗网逐渐出现在大众人们的视野
7、中,影视剧中对使用暗网贩卖人口等犯罪行为就有过大量的揭露。许多人出于好奇在网络中寻找进入暗网的方法。所以如何对暗网信息进行探测和爬取监控就显得非常重要。1 暗网研究现状 发展至今,暗网中隐藏服务的站点和资源在数量和质量上已经高于明网,对暗网的探测及研究已经意义重大。但是由于暗网本身的特性:多中间节点跳跃的隐蔽性;频繁更换站点导致的探测不稳定性;没有被百度、谷歌等搜索引擎收录致站点难发现性等问题,导致暗网在横向的数量和纵向的深度都难以探测。国内外许多专家和机构都对暗网做过相关研究。暗网的相关研究主要分为两个方面:一个是基于暗网匿名通信技术本身,通过不断优化匿名通信技术,提升暗网的匿名性、效率性和
8、稳定性等,使得暗网能够有更好的发展;另一个研究方向则是基于暗网的技术原理,寻找暗网空间资源探测的方法和技术2。就暗网空间资源探测的研究方面,上海交通大学的杨溢3等人设计出了 Tor 域名地址采集系统,优化了暗网的访问效率,从明网和暗网采集站点域名;郭晗4等人针对 Freenet 的暗网资源探测进行了研究,freenet 是一种分布式的匿名信息存储和检索系统,发展时间比 tor 洋葱路由还早;汤艳君5等人通过分析暗网通讯的技术原理,利用 selenium 对暗网进行爬取,探测后的暗网信息能够帮助公安部门监控和分析暗网中的有害内容,加大网络监控力度。2 Nunes E,Diab A,Gunn A,
9、et al.Darknet and DeepnetMining for Proactive Cybersecurity Thread IntelligenceC.IEEE Conference on Intelligence and Security Informatics,2017:7-12 3 杨溢,郭晗,王轶骏,薛质.基于 Tor 的暗网空间资源探测J.通信技术,2017.50(10):2304-2309 4 郭晗,王轶骏,薛质.基于 Freenet 的暗网空间资源探测J.通信技术,2017.50(9):2017-2023 5 汤艳君,安俊霖.基于 Tor 的暗网数据爬虫设计与实现J.信
10、息安全研究,2019.5(9):798-804 6 李亚.暗网数据源分类算法的研究和实现D.成都理工大学,2013.7 Biryukov A,Pustogarov I,Weinmann R P.Trawling for TorHidden Servics:Detection,Measurement,DeanonymizationC.Security and Privacy,2013:80-94 8 Guitton C.A review of the available content on Tor hiddenservices:The case against further developmentJ.Computers in Human Behavior,2013.29(6):2805-2815 9 趙志云,张旭,罗铮.“暗网”应用情况及监管方法研究J.知识管理论坛,2016.2.10 林海伦,熊锦华,王博等.基于领域知识抽样的深网资源采集方法J.中文信息学报,2016.2:175-181 11 Li K,Liu P,Tan Q,et al.Out-of-band discovery andevaluation for tor hidden servicesJ.SAC,2016:2057-2062