基于R语言爬取电商数据的价格销售分析计算机专业.docx-资源下载-蜗牛文库-知识共享服务平台

基于R语言爬取电商数据的价格销售分析计算机专业.docx

1、目录1 绪论21.1 研究背景及意义21.2 国内外研究现状21.3 本文研究内容32 相关技术简介42.1 网络爬虫定义42.2 R语言简介42.3 Scrapy框架52.4 数据挖掘技术介绍52.4.1 日志挖掘52.4.2 数据挖掘分析的过程62.5 Heritrix简介73 系统分析83.1 系统可行性分析83.2 功能需求分析83.3 系统流程分析93.4 性能需求94 系统设计114.1网络爬虫的模型分析114.2网络爬虫的搜索策略114.3网络爬虫的主题相关度判断124.4 网络爬虫设计144.5 功能实现155 总结与展望21参考文献22致谢231 绪论1.1 研究背景及意

2、义随着网络的发展，越来越多的资源出现在人们面前，这时候人们就需要一种查询这些资源的方法，一种可以方便快捷获取自己想要的东西的方法。这时候搜索引擎这种搜索工具就出现了。网站拥有了较多内容后，首先考虑基于目录的内容分类，以解决信息快速定位的问题，随着内容量的进一步增加，很多内容在发表之后就很快被湮没，成为“信息孤岛”，而不断加深的目录结构也会让用户逐渐失去耐心。这时，搜索引擎的优势就体现出来了：可以让处于“信息孤岛”状态的内容以一种更直接的方法提供给用户；和基于目录/分类的树形结构不同，基于关键词检索还可以让内容之间实现网状的关联结构，已经出现了许多类似的搜索引擎。针对搜索引擎广阔的应用前景以及分

3、析国内外搜索引擎的发展现状，根据全文检索系统的工作原理设计一种基于Internet的全文搜索引擎模型，它可以从互联网上获取网页，建立索引数据库，并采用数据库管理作业和多线程技术以提高全文搜索的性能和效率，从技术上可以适用于任何有搜索需求的应用。1.2 国内外研究现状网络爬虫，又称为Robots或Spiders，几乎与网络同时出现。第一个网络爬虫是Matthew Gray的Wanderer，在头两届国际万维网会议上出现过数篇关于网络爬虫的论文。但是那时候互联网上的信息规模比现在要小得多，那些文章中并没有阐述如何处理现在所面临的海量网络信息的技术。每个搜索引擎的后台，都有相应的网络爬虫在工作着。但

4、是出于互相竞争的原因，这些网络爬虫的设计并没有公开，除了以下3个：Google Crawler，Internet Archive Crawler以及Mercator。1990 年，万维网还没有诞生，但是人们已经开始频繁的使用网络来传输文件了，由于大量的文件分布在不同的终端上，如果对每个终端逐一的进行访问既费时又费力，于是蒙特利尔大学的学生 Alan Emtage、Bill Wheelan 和 Peter Deutsch开发了一个可以用文件名查找文件的系统，也就是 Archie。它存储了一个 FTP 文件名列表，当用户输入文件名进行搜索时，它会告诉用户该文件是放在哪个 FTP主机中，用户就可以直

5、接访问这个主机获取文件。深受 Archie 系统的启发，1993年美国内华达 System Computing Services 大学开发出了一个已经可以检索网页的搜索工具。同年，麻省理工学院（MIT）的学生马休格雷（Matthew Gray）开发出了第一个 web robot 网络机器人程序，这个程序被命名为 World Wide Web Wanderer。虽然当时这个程序并不是以做搜索引擎为目的而编写的，但是它却促进了后来搜索引擎的发展。网络机器人程序（Robot）也叫网页蜘蛛（Spider）或网络爬虫（Crawler）。它是搜索引擎系统中负责抓取网页的文本信息、图片信息和其它信息的功能模

6、块。它利用 HTML 文档中包含的指向其它页面或文件的链接信息，在分析完一个页面后转到其它链接继续分析，把分析出来的结果存入数据库。Worldwide Web Wanderer 刚开始只用来计算互联网的发展规模，后来也发展成为能够抓取 URL 的系统。1.3 本文研究内容本文主要分为五个章节，第一部分为前言，主要介绍了课题背景、研究意义、国内外研究现状等内容。第二部分是相关技术的介绍，主要介绍了网络爬虫、R语言、Lucene等。第三部分为系统分析，主要介绍了可行性分析功能需求分析等。第四部分是系统设计，系统架构设计和功能设计是主要的设计内容。第五部分是总结，主要对全文进行了总结。2 相关技术简

7、介2.1 网络爬虫定义定义1：网络爬虫是一个自动提取网页的程序，它为搜索引擎从Web上下载网页，是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL列表；在抓取网页的过程中，不断从当前页面上抽取新的URL放入待爬行队列，直到满足系统的停止条件。定义2：主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接，保留主题相关的链接并将其放入待抓取的URL队列中；然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储，进行一定的分析、过滤，并建立索引，对于主题网络爬虫

8、来说，这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。定义3：如果网页p中包含超链接l，则p称为链接l的父网页。定义4：如果超链接l指向网页t，则网页t称为子网页，又称为目标网页。主题网络爬虫的基本思路就是按照事先给出的主题，分超链接和已经下载的网页内容，预测下一个待抓取的URL及当前网页的主题相关度，保证尽可能多地爬行、下载与主相关的网页，尽可能少地下载无关网页。2.2 R语言简介R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件，是集统计分析与图形显示于一体的。它可以运

9、行于UNIX,Windows和Macintosh的操作系统上，而且嵌入了一个非常方便实用的帮助系统，相比于其他统计分析软件，R还有以下特点：1.R是自由软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如,SPSS,SAS等快得多。大多数最新

10、的统计方法和技术都可以在R中直接得到。3.所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有：base一R的基础模块、mle一极大似然估计模块、ts一时间序列分析模块、mva一多元统计分析模块、survival一生存分析模块等等.4.R具有很强的互动性。除了图形输出是在另外的窗口处，它的输入输出窗口都是在同一个窗口进行的，输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有

11、记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。5.如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地。2.3 Scrapy框架Scrapy属于R语言开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。Scrapy是一个为了爬取网站数据，提取结构性数

12、据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。抓取网页的一般方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加入到爬虫的抓取队列中，然后进入到新页面后再递归的进行上述的操作，其实说来就跟深度遍历或广度遍历一样。Scrapy 使用 Twisted这个异步网络库来处理网络通讯，架构清晰，并且包含了各种中间件接口，可以灵活的完成各种需求。2.4 数据挖掘技术介绍2.4.1 日志挖掘日志挖掘一

13、般都包含以下几个过程：（一）前处理数据预处理日志数据挖掘中最重要的组成部分，其任务是将原始日志数据转换成格式的数据挖掘和模式发现在必要的依据，预处理可以简化数据挖掘的过程中，做出更客观的决定。数据处理，包括数据清洗，用户识别，会话识别，分四步额外的路线。1.清洗数据数据清理是指将被处理导入到关系型数据库中，删除错误的值在Web日志数据，缺失值的日志数据，和其他人，而数据挖掘和Web无关的变量或数据清理，取得了经营目标工具;2简介用户。用户的识别，是要找到从日志数据的每个用户访问的地址，避免重复挖掘。此时，由于在本地高速缓存中，在代理服务器和防火墙为用户动态分配IP地址的情况下，要确定的每个用户

14、会变得非常复杂。（二）模式发现模式发现，数据预处理，数据挖掘算法对数据进行分析。有几种方法统计分钟，分类，分组，关联规则，路径分析。（1）的统计信息。所述统计方法是通过分析会话文件中提取知识的最常用的方法，浏览时间，频率，和其他导航路径，平均值等的统计分析。尽管缺乏深度，但仍然可用于提高网站的结构，增强了安全性系统，提高现场访问的效率等。（2）分类。类别包括开采技术将找到一个短期的还是数据的事件或特定群体的一个子集的规则的定义。该技术是应用最广泛的各类业务问题，以一流的开采技术。分类算法是决策树最流行的方法，除了神经网络，贝叶斯分类。（3）基团。分组是一个数据集成多个类别，因为有高浓度的数据之

15、间的相似性，在同一类，和不同的类中，可以是在量之间的差数据。技术团，没有预定义的类别和训练样本存在，所有记录将按照彼此之间的相似性的程度进行分类。主要算法K均值，DBSCAN等。（4）相关的规则。这样做的目的是要利用上数据之间的关系的隐藏的相关性分析，自动检测的隐藏模式以前未发现的，相关分析通常以规定的形式。这时，利用先天的关联规则挖掘算法，FP-growth算法。（5）路径分析。路径分析可用于指定路径定期访问该网站的调整和优化的网站，它允许用户访问更加方便，快捷到所需的页面结构也可以用来备份聪明和有针对性的电子商务活动，按照灌木格局浏览普通用户。（三）模式分析基于所有上述过程中，原始数据进行进一步的分析，以确定用户的型态冲浪的规律，即利益和使用者的习惯，并描述了某些以提供对规划和决策建筑工地一个理论基础。主要方法是：问题，OLAP技术和可视化技术。2.4.2 数据挖掘分析的过程（一）所要解决的问题行业或机构所面临的数据挖掘需求总是很多，这个问题前，如需要形成一个研究问题本身，然后提取这一问题的模型很多次。因此，数据挖掘用户的首先是一个共同的背景知识，了解需求，充分发挥数据挖掘的价值，我们的目标必须有一个明确的定义，这个决定最终想做的事情。（二）获得的数据建立数据挖掘库来源为了进行数据挖掘需要收集的数据源挖掘。更多的时候，位于数据源中不同的数据源，因

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？