书籍详情

Python网络爬虫开发从入门到精通

Python网络爬虫开发从入门到精通

作者:刘延林

出版社:北京大学出版社

出版时间:2019-12-01

ISBN:9787301309094

定价:¥79.00

购买这本书可以去
内容简介
  本书共分 3 篇,针对 Python 爬虫初学者,从零开始,系统地讲解了如何利用 Python 进行常见的网络爬虫的程序开发。第 1 篇快速入门篇(第 1 章 ~ 第 9 章):本篇主要介绍了 Python 环境的搭建和一些 Python 的基础语法知识等、Python爬虫入门知识及基本的使用方法、Ajax 数据的分析和抓取、动态渲染页面数据的爬取、网站代理的设置与使用、验证码的识别与破解,以及 App 数据抓取、数据的存储方法等内容。第 2 篇技能进阶篇(第 10 章 ~ 第 12 章):本篇主要介绍了 PySpider 和 Scrapy 两个常用爬虫框架的基本使用方法、分布式爬虫的实现思路,以及数据分析、数据清洗常用库的使用方法。第 3 篇项目实战篇(第 13 章):本篇通过 6 个综合实战项目,详细地讲解了 Python 数据爬虫开始与实战应用。本篇对全书内容进行了总结回顾,强化读者的实操水平。本书案例丰富,注重实战,既适合 Python 程序员和爬虫爱好者阅读学习,也适合作为广大职业院校相关专业的教学用书。
作者简介
  刘延林,知名论坛Python爬虫专题管理员,擅长Python爬虫技术,并对Python数据分析与挖掘有深入研究。在CSDN等多个知名博客网站发表多篇技术文章,深受读者的喜爱。
目录
第1篇?快速入门篇
第1章?Python基础 2
1.1?Python环境搭建 3
1.2?Python编程入门 16
1.3?新手实训 33
1.4?新手问答 35
本章小结 35
第2章?Python爬虫入门 36
2.1?爬虫的分类 37
2.2?爬虫的基本结构和工作流程 38
2.3?爬虫策略 39
2.4?HTTP的基本原理 40
2.5?网页基础 45
2.6?Session和Cookie 49
2.7?新手实训 51
2.8?新手问答 54
本章小结 55
第3章?基本库的使用 56
3.1?urllib 57
3.2?requests 64
3.3?re正则使用 69
3.4?XPath 75
3.5?新手实训 78
3.6?新手问答 81
本章小结 82
第4章?Ajax数据抓取 83
4.1?Ajax简介 84
4.2?使用Python模拟Ajax请求数据 91
4.3?新手实训 93
4.4?新手问答 96
本章小结 96
第5章?动态渲染页面爬取 97
5.1?Selenium的使用 98
5.2?Splash的基本使用 115
5.3?新手实训 127
5.4?新手问答 131
本章小结 132
第6章?代理的设置与使用 133
6.1?代理设置 134
6.2?代理池构建 136
6.3?付费代理的使用 140
6.4?ADSL拨号代理的搭建 145
6.5?新手问答 155
本章小结 156
第7章?验证码的识别与破解 157
7.1?普通图形验证码的识别 158
7.2?极验滑动验证码的破解 164
7.3?极验滑动拼图验证码破解 168
7.4?新手问答 174
本章小结 175
第8章?App数据抓取 176
8.1?Fiddler的基本使用 177
8.2?Charles的基本使用 182
8.3?Appium的基本使用 196
8.4?新手问答 217
本章小结 217
第9章?数据存储 218
9.1?文件存储 219
9.2?数据库存储 224
9.3?新手实训 236
9.4?新手问答 239
本章小结 240

第2篇?技能进阶篇
第10章?常用爬虫框架 242
10.1?PySpider框架 243
10.2?Scrapy框架 252
10.3?Scrapy-Splash的使用 262
10.4?新手实训 266
10.5?新手问答 269
本章小结 269
第11章?部署爬虫 270
11.1?Linux系统下安装Python 3 271
11.2?Docker的使用 273
11.3?Docker安装Python 274
11.4?Docker安装MySQL 277
本章小结 278

第12章?数据分析 279
12.1?NumPy的使用 280
12.2?Pandas的使用 296
12.3?pyecharts的使用 311
12.4?新手实训 315
12.5?新手问答 316
本章小结 316

第3篇?项目实战篇
第13章?爬虫项目实战 318
13.1?实战一:Selenium+XPath爬取简书 319
13.2?实战二:使用requests爬取腾讯人口迁徙数据 326
13.3?实战三:Scrapy爬取豆瓣电影 330
13.4?实战四:使用Selenium多线程异步爬取同城旅游网机票价格信息 334
13.5?实战五:数据分析Dessert Apples下12种苹果全年最高、最低和平均销量 343
13.6?实战六:中国南方航空机票信息爬取 346
本章小结 352

附录?Python常见面试题精选 353
猜您喜欢

读书导航