Python网络爬虫实战_2019.5.pdf

上传人：g****t 文档编号：2355727 上传时间：2023-05-08 格式：PDF 页数：405 大小：50.06MB

下载相关举报

第1页 / 共405页

第2页 / 共405页

第3页 / 共405页

第4页 / 共405页

第5页 / 共405页

第6页 / 共405页

亲，该文档总共405页，到这儿已超出免费预览范围，如果喜欢就下载吧！

资源描述

1、前言网络爬虫(Web Crawler)是指一类能够自动化访问网络并抓取某些信息的程序，有时候也被称为“网络机器人”。它们被广泛用于互联网搜索引擎及各种网站的开发中，同时也是大数据和数据分析领域中的重要角色。爬虫可以按一定的逻辑大批量采集目标页面内容，并对数据做进一步处理，人们借此能够更好、更快地获得并使用他们感兴趣的信息，从而方便地完成很多有价值的工作。Python是一种解释型、面向对象的、动态数据类型的高级程序设计语言，Python语法简洁、功能强大，在众多高级语言中拥有十分出色的编写效率，同时还拥有活跃的开源社区和海量程序库，十分适合进行网络内容的抓取和处理。本书将以Python语言为基础

2、，由浅入深地探讨网络爬虫技术，同时通过具体的程序编写和实践来帮助读者了解和学习Python爬虫。本书共分为14章，其中第13章为基础篇，第46章为进阶篇，第79章为高级篇，第1014章为实践篇，最后为附录。第1章、第2章介绍了Python语言和编写爬虫程序的基础知识；第3章讨论了Python中对文件和数据的存储，涉及数据库的相关知识；第4章、第5章的内容针对相对复杂一些的爬虫抓取任务，主要着眼于动态内容和表单登录等方面；第6章涉及对抓取到的原始数据的深入处理和分析；第79章旨在从不同视角讨论爬虫程序，基于爬虫介绍了多个不同主题的内容；第1014章通过一些实际的例子深人讨论爬虫编程的理论知识；最后在附录中介绍了Python语言和爬虫编程中常用的知识和工具。本书的主要特点如下。内容全面，结构清晰。本书详细介绍了网络爬虫技术的方方面面，讨论了数据抓取、数据处理和数据分析的整个流程。全书结构清晰，坚持理论知识与实践操作相结合。循序渐进，生动简洁。本书从最简单的Python程序示例开始，在网络爬虫的核心主题之下一步步深人，兼顾内容的广度与深度，在内容编写上使用生动

展开阅读全文

相关资源