Python网络爬虫技术与实践
作者:吕云翔,张扬,杨壮
出版社:机械工业出版社
出版时间:2023-06-01
ISBN:9787111728467
定价:¥69.90
前言
基 础 篇
第1章 Python基础及网络爬虫1
1.1 了解Python语言1
1.1.1 Python是什么2
1.1.2 Python的应用现状2
1.2 配置安装Python开发环境3
1.2.1 在Windows上安装3
1.2.2 在Ubuntu和MacOS上安装4
1.2.3 IDE的使用:以PyCharm为例5
1.2.4 Jupyter Notebook简介9
1.3 Python基本语法介绍11
1.3.1 HelloWorld与数据类型11
1.3.2 逻辑语句17
1.3.3 Python中的函数与类20
1.3.4 更深入了解Python22
1.4 互联网、HTTP与HTML22
1.4.1 互联网与HTTP22
1.4.2 HTML23
1.5 Hello, Spider!25
1.5.1 编写第一个爬虫程序25
1.5.2 对爬虫的思考27
1.6 分析网站28
1.6.1 robots.txt与Sitemap简介28
1.6.2 网站技术分析31
1.6.3 网站所有者信息分析33
1.6.4 使用开发者工具检查网页34
1.7 本章小结37
1.8 实践:Python环境的配置与
爬虫的运行37
1.8.1 需求说明37
1.8.2 实现思路及步骤37
1.9 习题37
第2章 数据采集与预处理39
2.1 数据39
2.1.1 数据的概念39
2.1.2 数据类型40
2.1.3 数据的存储形式42
2.1.4 数据的价值42
2.1.5 大数据时代43
2.2 数据分析过程43
2.3 数据采集44
2.3.1 数据采集的概念44
2.3.2 数据采集的数据源44
2.3.3 数据采集方法45
2.4 数据清洗45
2.4.1 数据清洗概述45
2.4.2 数据清洗的内容46
2.4.3 数据清洗的基本流程46
2.4.4 数据清洗的评价标准47
2.5 数据集成47
2.6 数据转换48
2.6.1 数据转换概念与策略48
2.6.2 平滑处理48
2.6.3 标准化处理50
2.7 数据脱敏50
2.7.1 数据脱敏的原则50
2.7.2 数据脱敏的方法51
2.8 本章小结51
2.9 实践:使用Python尝试数据的
清洗51
2.9.1 需求说明51
2.9.2 实现思路及步骤51
2.10 习题51
第3章 静态网页采集53
3.1 从采集开始53
3.2 正则表达式54
3.2.1 什么是正则表达式54
3.2.2 正则表达式的简单使用56
3.3 BeautifulSoup爬虫58
3.3.1 安装BeautifulSoup58
3.3.2 BeautifulSoup的基本用法61
3.4 XPath与lxml64
3.4.1 XPath64
3.4.2 lxml与XPath的使用65
3.5 遍历页面67
3.5.1 抓取下一个页面67
3.5.2 完成爬虫68
3.6 使用API70
3.6.1 API简介70
3.6.2 API使用示例72
3.7 本章小结75
3.8 实践:哔哩哔哩直播间信息
爬取练习75
3.8.1 需求说明75
3.8.2 实现思路及步骤75
3.9 习题76
第4章 数据存储77
4.1 Python中的文件77
4.1.1 Python的文件读写77
4.1.2 对象序列化79
4.2 Python中的字符串80
4.3 Python中的图片81
4.3.1 PIL与Pillow模块81
4.3.2 Python与OpenCV简介83
4.4 CSV84
4.4.1 CSV简介84
4.4.2 CSV的读写84
4.5 数据库的使用86
4.5.1 MySQL的使用86
4.5.2 SQLite3的使用88
4.5.3 SQLAlchemy的使用89
4.5.4 Redis的使用91
4.5.5 MongoDB的使用91
4.6 其他类型的文档92
4.7 本章小结97
4.8 实践:使用Python 3读写SQLite
数据库97
4.8.1 需求说明97
4.8.2 实现思路及步骤97
4.9 习题97
进 阶 篇
第5章 JavaScript与动态内容99
5.1 JavaScript与AJAX技术100
5.1.1 JavaScript语言100
5.1.2 AJAX103
5.2 抓取AJAX数据104
5.2.1 分析数据104
5.2.2 数据提取108
5.3 抓取动态内容113
5.3.1 动态渲染页面113
5.3.2 使用Selenium114
5.3.3 PyV8与Splash120
5.4 本章小结123
5.5 实践:爬取机械工业出版社新书
上架信息123
5.5.1 需求说明123
5.5.2 实现思路及步骤124
5.6 习题124
第6章 模拟登录与验证码125
6.1 表单125
6.1.1 表单与POST125
6.1.2 POST发送表单数据127
6.2 Cookie130
6.2.1 Cookie简介130
6.2.2 在Python中Cookie的使用131
6.3 模拟登录网站133
6.3.1 分析网站133
6.3.2 Cookie方法的模拟登录134
6.4 验证码137
6.4.1 图片验证码137
6.4.2 滑动验证139
6.5 本章小结142
6.6 实践:通过Selenium模拟登录Gitee并保存Cookie143
6.6.1 需求说明143
6.6.2 实现思路及步骤143
6.7 习题143
第7章 爬虫数据的分析与处理144
7.1 Python与文本分析144
7.1.1 文本分析简介144
7.1.2 jieba与SnowNLP145
7.1.3 NLTK148
7.1.4 文本分类与聚类151
7.2 数据处理与科学计算153
7.2.1 从MATLAB到Python153
7.2.2 NumPy154
7.2.3 Pandas158
7.2.4 Matplotlib163
7.2.5 SciPy与SymPy167
7.3 本章小结167
7.4 实践:中国每年大学招生人数
变化的可视化167
7.4.1 需求说明167
7.4.2 实现思路及步骤167
7.5 习题167
提 高 篇
第8章 爬虫的灵活性和多样性169
8.1 爬虫的灵活性——以微信数据
抓取为例169
8.1.1 用Selenium抓取Web微信信息169
8.1.2 基于Python的微信API工具173
8.2 爬虫的多样性176
8.2.1 在BeautifulSoup和XPath之外176
8.2.2 在线爬虫应用平台179
8.2.3 使用urllib180
8.3 爬虫的部署和管理188
8.3.1 使用服务器部署爬虫188
8.3.2 本地爬虫的编写