书籍详情
Python办公好轻松
作者:郎宏林 丁盈
出版社:人民邮电出版社
出版时间:2023-03-01
ISBN:9787115601636
定价:¥89.80
购买这本书可以去
内容简介
本书深入浅出地讲解了如何利用Python实现高效办公,包含Python编程的基础知识,以及Python在办公自动化方面的应用。本书内容分2篇,共12章。篇介绍Python编程的基础知识,涉及Python编程的基本语法、流程控制、数据模型、函数式编程、程序调试与异常处理、面向对象编程等。第二篇介绍Python在办公自动化领域的应用,分为文件批处理、使用正则表达式对文本内容进行批处理、Excel数据分析自动化、图片批处理、爬取互联网数据、PDF文档处理自动化,基本涵盖了文件处理和数据分析方面的自动化办公工作。本书提供丰富的配套资源(如教学视频、PPT、案例数据、源代码和编程练习的参考答案),读者可以参考学习并尝试将书中介绍的解决方案用于实际工作中,有助于提升办公效率,夯实编程技能。本书不要求读者拥有Python或编程基础,适合想要入门Python编程的读者阅读,也适合想要利用Python实现办公自动化、提升办公效率的读者阅读。
作者简介
郎宏林,拥有多年自然语言处理和企事业办公自动化领域的研发经验,在使用信息技术改造传统办公方式过程中,首先提出了文档一体化概念并应用于实践,提高了办公效率。现就职于某科技公司,任技术负责人和架构师,熟悉项目管理,精通Java、C#、Python等编程语言。 丁盈,在中文信息处理领域工作十余年,对机器翻译、办公自动化等技术有一定的研究,精通 Python 编程语言,现就职于某科技公司专家委员会。
目录
第 一篇 Python编程基础
第 1章 入门Python 2
1.1 初识Python 2
1.1.1 下载和安装Python 2
1.1.2 了解Python的交互环境 4
1.1.3 算式 5
1.2 变量与常量 7
1.2.1 变量的定义 7
1.2.2 变量的命名 7
1.2.3 变量的赋值 8
1.2.4 常量 9
1.2.5 输入与输出函数 10
1.3 数据类型 11
1.3.1 认识数据类型 11
1.3.2 整数类型 12
1.3.3 浮点类型 13
1.3.4 布尔类型 14
1.3.5 复数类型 14
1.4 字符串 15
1.4.1 认识字符串 15
1.4.2 字符串的拼接 15
1.4.3 字符串的访问 16
1.4.4 字符串的判断 17
1.4.5 字符串相等判断 18
1.5 格式化输出 19
1.5.1 格式化输出案例 19
1.5.2 print函数的格式化输出功能 19
1.5.3 占位符“%d”的使用 20
1.5.4 占位符“%s”的使用 21
1.5.5 占位符“%f”的使用 21
1.6 编辑代码 22
1.6.1 使用代码编辑器 22
1.6.2 代码注释 23
1.6.3 代码缩进 24
1.6.4 编写多行语句 25
1.6.5 转义符 25
1.6.6 编码规范 25
1.7 流程图 26
1.7.1 使用流程图描述程序步骤 26
1.7.2 认识流程图 27
1.7.3 如何绘制流程图 30
1.8 编程练习 32
第 2章 流程控制 34
2.1 条件判断结构 34
2.1.1 关系表达式 34
2.1.2 简单条件结构 35
2.1.3 逻辑表达式 36
2.1.4 多重条件的判断 38
2.1.5 嵌套条件的判断 40
2.2 计算自然数1~100的累加和 42
2.2.1 使用推土机算法 42
2.2.2 使用简便算法 42
2.2.3 使用Python计算自然数
1~100的累加和 43
2.2.4 认识for循环结构 44
2.2.5 认识range函数 45
2.2.6 用for循环计算1~100的
累加和 46
2.3 while循环结构 47
2.3.1 如何保持程序运行 47
2.3.2 认识while循环结构 48
2.3.3 保持程序的运行 50
2.4 嵌套循环与循环退出 52
2.4.1 for嵌套循环 52
2.4.2 break和continue语句 53
2.4.3 while嵌套循环 56
2.5 编程练习 58
第3章 数据模型 61
3.1 类与对象 61
3.1.1 类和对象的关系 61
3.1.2 认识类 62
3.1.3 序列对象 63
3.2 列表类型 64
3.2.1 列表结构 64
3.2.2 可变序列 65
3.2.3 列表排序 69
3.2.4 列表遍历 69
3.3 元组类型 70
3.3.1 元组结构 70
3.3.2 元组的创建 70
3.3.3 元组的访问 71
3.3.4 元组的遍历 72
3.4 字典类型 72
3.4.1 字典结构 72
3.4.2 如何创建一个字典对象 73
3.4.3 字典更新与删除 73
3.4.4 字典的访问 74
3.4.5 判断key是否在字典中 75
3.5 可迭代对象 75
3.5.1 迭代器协议 75
3.5.2 用迭代器遍历序列对象 76
3.6 编程练习 78
第4章 函数式编程 80
4.1 函数与代码的可复用性 80
4.1.1 语句重复的代码 80
4.1.2 功能重复的代码 81
4.1.3 使用函数解决功能重复的问题 81
4.1.4 函数的结构 82
4.2 函数参数的使用 83
4.2.1 函数的参数 83
4.2.2 默认参数 84
4.2.3 可变参数 85
4.2.4 关键字参数 86
4.3 常用内置函数 86
4.3.1 构造字符串、列表、元组、
字典对象 87
4.3.2 对象的操作 89
4.3.3 运算与聚合处理函数 94
4.4 变量的作用域 97
4.4.1 标识符 97
4.4.2 局部和全局变量的作用域 97
4.4.3 局部变量和全局变量名称
相同 98
4.4.4 嵌套函数的作用域 99
4.5 列表解析表达式 99
4.5.1 使用一条语句来创建列表 100
4.5.2 使用条件表达式过滤列表 100
4.5.3 使用表达式初始化列表元素 100
4.5.4 创建矩阵 101
4.6 lambda表达式 101
4.6.1 认识lambda表达式 101
4.6.2 内置函数filter 102
4.6.3 lambda表达式使用案例 102
4.7 生成器类型与yield表达式 103
4.7.1 可迭代对象和迭代器 103
4.7.2 认识yield表达式 104
4.7.3 生成器类型的方法 104
4.7.4 生成器示例 105
4.8 模块与包 106
4.8.1 模块的作用 106
4.8.2 import语句 109
4.8.3 搜索路径 110
4.8.4 包 111
4.8.5 主模块 111
4.9 编程练习 113
第5章 程序调试与异常处理 115
5.1 调试Python程序 115
5.1.1 使用print函数调试程序 115
5.1.2 使用assert断言语句调试程序 116
5.1.3 使用log输出程序运行状态 117
5.1.4 使用内置函数breakpoint设置
断点 117
5.1.5 调试程序 118
5.2 处理程序出现的异常 119
5.2.1 认识Python异常 119
5.2.2 异常的处理和检测 121
5.2.3 内置异常 123
5.3 编程练习 124
第6章 面向对象编程 125
6.1 类与类的封装 125
6.1.1 面向对象编程的概念 126
6.1.2 类的封装 127
6.2 类的定义与访问 128
6.2.1 定义一个Python类 128
6.2.2 类实例化为对象 130
6.2.3 访问对象的属性和方法 131
6.2.4 使用内置函数操作对象的
属性 133
6.2.5 类方法的不同称谓及作用 133
6.2.6 类属性的不同称谓及作用 136
6.3 类的继承 137
6.4 类的多态性 140
6.4.1 认识类的多态性 140
6.4.2 pass语句 143
6.5 编程练习 144
第二篇 办公自动化
第7章 文件批处理 146
7.1 文件批量命名 146
7.1.1 文件和目录 146
7.1.2 拼接文件路径 147
7.1.3 提取文件创建时间 147
7.1.4 文件重命名 148
7.1.5 提取文件扩展名 148
7.1.6 判断文件和目录 148
7.1.7 遍历文件 149
7.1.8 文件批量命令示例 149
7.2 文件内容批量替换 150
7.2.1 open函数 150
7.2.2 读取文件内容 152
7.2.3 替换文件内容 153
7.2.4 保存文件到磁盘 153
7.2.5 批量替换示例 154
7.3 创建文件和目录 155
7.3.1 创建单个目录 155
7.3.2 with语句与上下文管理 156
7.3.3 批量创建目录 157
7.3.4 批量创建文件 157
7.3.5 文件和目录批量创建示例 158
7.4 提取文件属性 159
7.4.1 提取文件修改时间 159
7.4.2 提取文件近访问时间 160
7.4.3 提取文件大小 160
7.4.4 读写CSV文件 160
7.4.5 遍历子目录 162
7.4.6 文件属性提取示例 162
7.5 编程练习 164
第8章 使用正则表达式对文本内容进行
批处理 165
8.1 入门正则表达式 165
8.1.1 原始字符串标记 165
8.1.2 初识正则表达式 166
8.1.3 正则表达式元字符 169
8.1.4 正则匹配模式及其标志 172
8.2 正则表达式相关的对象 173
8.2.1 正则表达式对象 173
8.2.2 Math对象 178
8.3 批量检查和替换文本内容 181
8.3.1 敏感词批量检测 181
8.3.2 校验通讯录的邮箱格式 182
8.3.3 批量替换指定的文本内容 183
8.3.4 批量提取符合规则的内容 184
8.4 编程练习 185
第9章 Excel数据分析自动化 187
9.1 科学计算工具NumPy 187
9.1.1 安装NumPy 187
9.1.2 NumPy数组 187
9.1.3 数组操作 190
9.1.4 数组的索引和访问 191
9.1.5 数组的切片 192
9.1.6 花式索引 194
9.1.7 布尔索引 195
9.1.8 where函数 196
9.2 数据分析工具pandas 197
9.2.1 安装pandas库 197
9.2.2 pandas数据对象 197
9.2.3 重新索引 198
9.2.4 算术运算 199
9.2.5 使用函数处理数据 200
9.3 Excel工作簿的读取与写入 202
9.3.1 Excel文件构成 202
9.3.2 读取Excel工作表 202
9.3.3 访问Excel单元格数据 204
9.3.4 DataFrame数据写入Excel
工作簿 204
9.4 Excel的提取与合并 206
9.4.1 将多个工作簿提取到一个
工作簿 206
9.4.2 将多个工作簿提取到一个
工作表 208
9.4.3 将同名工作表提取到一个
工作表 208
9.4.4 将同名工作表提取到一个
工作簿 209
9.5 数据可视化工具Matplotlib 210
9.5.1 安装Matplotlib库 210
9.5.2 使用Matplotlib绘图 210
9.5.3 绘制函数图像 213
9.5.4 绘制柱状图 217
9.5.5 绘制折线图 218
9.5.6 绘制散点图 220
9.6 Excel汇总统计 221
9.6.1 同一工作簿下的多工作表
汇总 221
9.6.2 将多个工作簿汇总到一个
工作簿 223
9.6.3 自动生成数据透视表 224
9.7 数据分析案例 226
9.7.1 泰坦尼克号沉船乘客数据 226
9.7.2 缺失值和异常值的处理 226
9.7.3 统计男女乘客人数、船舱等级
分布人数和儿童人数 227
9.7.4 分别统计船舱等级、性别、
年龄段对应的获救情况 229
9.8 Excel报表自动化 232
9.8.1 报表任务 232
9.8.2 日期和时间类型 233
9.8.3 数据分析 237
9.8.4 生成报表 238
9.9 编程练习 240
第 10章 图片批处理 241
10.1 Pillow库 241
10.1.1 安装Pillow库 241
10.1.2 Image对象 241
10.1.3 ImageDraw对象 243
10.2 图片格式批量转换 244
10.2.1 读取图片文件 244
10.2.2 设置图片尺寸 244
10.2.3 图片格式转换 245
10.2.4 格式批量转换示例 245
10.3 图片效果处理 246
10.3.1 ImageFilter对象 246
10.3.2 模糊滤镜的使用 247
10.3.3 轮廓滤镜的使用 247
10.3.4 浮雕滤镜的使用 248
10.3.5 彩色图像处理为灰度图像 248
10.3.6 图片效果示例 249
10.4 图片添加文字和水印 250
10.4.1 图片添加文字 250
10.4.2 图片添加水印 250
10.4.3 添加文字和水印示例 251
10.5 编程练习 252
第 11章 爬取互联网数据 253
11.1 入门爬虫 253
11.1.1 安装Scrapy 253
11.1.2 一个简单的爬虫项目 254
11.2 HTML与XPath 257
11.2.1 标记语言 257
11.2.2 XPath语法 259
11.2.3 定位符号 260
11.2.4 运算符 261
11.2.5 谓词 261
11.2.6 XPath函数 261
11.3 Scrapy框架 264
11.3.1 爬虫的基本工作原理 264
11.3.2 Scrapy爬虫的工作机制 265
11.3.3 请求与响应 265
11.3.4 Request对象 266
11.3.5 改进百度新闻爬虫项目 267
11.3.6 选择器 270
11.3.7 数据的定义 271
11.3.8 数据的处理ItemLoader类 272
11.3.9 Scrapy内置数据处理器 273
11.3.10 为每个Item数据项添加处理器 275
11.3.11 爬虫Spider类 277
11.3.12 CrawlSpider类 279
11.3.13 配置文件 280
11.3.14 Pipeline管道类 281
11.4 爬取互联网文本内容 283
11.4.1 任务描述 283
11.4.2 创建CrawlSpider爬虫 283
11.4.3 定义Item数据容器 284
11.4.4 定义数据处理ItemLoader类 284
11.4.5 定义Pipeline管道类 286
11.4.6 编辑CrawlSpider爬虫代码 287
11.5 爬取互联网图片 288
11.5.1 任务描述 288
11.5.2 图片管道对象 288
11.5.3 使用图片管道对象 290
11.5.4 生成缩略图 294
11.5.5 图片近下载延迟调整 294
11.6 爬取互联网文件 294
11.6.1 任务描述 295
11.6.2 分析网站 295
11.6.3 定义数据项 296
11.6.4 文件下载管道类 296
11.6.5 修改配置文件 297
11.6.6 编辑爬虫文件 297
11.6.7 运行爬虫 298
11.7 编程练习 299
第 12章 PDF文档处理自动化 300
12.1 批量合并PDF文档 300
12.1.1 安装PyPDF2 300
12.1.2 读取PDF 300
12.1.3 写入PDF 301
12.1.4 合并PDF示例 302
12.2 拆分PDF文档 304
12.2.1 章节提取 304
12.2.2 设置页码 305
12.2.3 拆分PDF示例 305
12.3 输出图片 305
12.3.1 安装PyMuPDF 306
12.3.2 使用PyMuPDF 306
12.3.3 图片输出示例 307
12.4 提取文本 307
12.4.1 内容提取 307
12.4.2 软换行和空行处理 308
12.4.3 文本提取示例 308
12.5 编程练习 310
第 1章 入门Python 2
1.1 初识Python 2
1.1.1 下载和安装Python 2
1.1.2 了解Python的交互环境 4
1.1.3 算式 5
1.2 变量与常量 7
1.2.1 变量的定义 7
1.2.2 变量的命名 7
1.2.3 变量的赋值 8
1.2.4 常量 9
1.2.5 输入与输出函数 10
1.3 数据类型 11
1.3.1 认识数据类型 11
1.3.2 整数类型 12
1.3.3 浮点类型 13
1.3.4 布尔类型 14
1.3.5 复数类型 14
1.4 字符串 15
1.4.1 认识字符串 15
1.4.2 字符串的拼接 15
1.4.3 字符串的访问 16
1.4.4 字符串的判断 17
1.4.5 字符串相等判断 18
1.5 格式化输出 19
1.5.1 格式化输出案例 19
1.5.2 print函数的格式化输出功能 19
1.5.3 占位符“%d”的使用 20
1.5.4 占位符“%s”的使用 21
1.5.5 占位符“%f”的使用 21
1.6 编辑代码 22
1.6.1 使用代码编辑器 22
1.6.2 代码注释 23
1.6.3 代码缩进 24
1.6.4 编写多行语句 25
1.6.5 转义符 25
1.6.6 编码规范 25
1.7 流程图 26
1.7.1 使用流程图描述程序步骤 26
1.7.2 认识流程图 27
1.7.3 如何绘制流程图 30
1.8 编程练习 32
第 2章 流程控制 34
2.1 条件判断结构 34
2.1.1 关系表达式 34
2.1.2 简单条件结构 35
2.1.3 逻辑表达式 36
2.1.4 多重条件的判断 38
2.1.5 嵌套条件的判断 40
2.2 计算自然数1~100的累加和 42
2.2.1 使用推土机算法 42
2.2.2 使用简便算法 42
2.2.3 使用Python计算自然数
1~100的累加和 43
2.2.4 认识for循环结构 44
2.2.5 认识range函数 45
2.2.6 用for循环计算1~100的
累加和 46
2.3 while循环结构 47
2.3.1 如何保持程序运行 47
2.3.2 认识while循环结构 48
2.3.3 保持程序的运行 50
2.4 嵌套循环与循环退出 52
2.4.1 for嵌套循环 52
2.4.2 break和continue语句 53
2.4.3 while嵌套循环 56
2.5 编程练习 58
第3章 数据模型 61
3.1 类与对象 61
3.1.1 类和对象的关系 61
3.1.2 认识类 62
3.1.3 序列对象 63
3.2 列表类型 64
3.2.1 列表结构 64
3.2.2 可变序列 65
3.2.3 列表排序 69
3.2.4 列表遍历 69
3.3 元组类型 70
3.3.1 元组结构 70
3.3.2 元组的创建 70
3.3.3 元组的访问 71
3.3.4 元组的遍历 72
3.4 字典类型 72
3.4.1 字典结构 72
3.4.2 如何创建一个字典对象 73
3.4.3 字典更新与删除 73
3.4.4 字典的访问 74
3.4.5 判断key是否在字典中 75
3.5 可迭代对象 75
3.5.1 迭代器协议 75
3.5.2 用迭代器遍历序列对象 76
3.6 编程练习 78
第4章 函数式编程 80
4.1 函数与代码的可复用性 80
4.1.1 语句重复的代码 80
4.1.2 功能重复的代码 81
4.1.3 使用函数解决功能重复的问题 81
4.1.4 函数的结构 82
4.2 函数参数的使用 83
4.2.1 函数的参数 83
4.2.2 默认参数 84
4.2.3 可变参数 85
4.2.4 关键字参数 86
4.3 常用内置函数 86
4.3.1 构造字符串、列表、元组、
字典对象 87
4.3.2 对象的操作 89
4.3.3 运算与聚合处理函数 94
4.4 变量的作用域 97
4.4.1 标识符 97
4.4.2 局部和全局变量的作用域 97
4.4.3 局部变量和全局变量名称
相同 98
4.4.4 嵌套函数的作用域 99
4.5 列表解析表达式 99
4.5.1 使用一条语句来创建列表 100
4.5.2 使用条件表达式过滤列表 100
4.5.3 使用表达式初始化列表元素 100
4.5.4 创建矩阵 101
4.6 lambda表达式 101
4.6.1 认识lambda表达式 101
4.6.2 内置函数filter 102
4.6.3 lambda表达式使用案例 102
4.7 生成器类型与yield表达式 103
4.7.1 可迭代对象和迭代器 103
4.7.2 认识yield表达式 104
4.7.3 生成器类型的方法 104
4.7.4 生成器示例 105
4.8 模块与包 106
4.8.1 模块的作用 106
4.8.2 import语句 109
4.8.3 搜索路径 110
4.8.4 包 111
4.8.5 主模块 111
4.9 编程练习 113
第5章 程序调试与异常处理 115
5.1 调试Python程序 115
5.1.1 使用print函数调试程序 115
5.1.2 使用assert断言语句调试程序 116
5.1.3 使用log输出程序运行状态 117
5.1.4 使用内置函数breakpoint设置
断点 117
5.1.5 调试程序 118
5.2 处理程序出现的异常 119
5.2.1 认识Python异常 119
5.2.2 异常的处理和检测 121
5.2.3 内置异常 123
5.3 编程练习 124
第6章 面向对象编程 125
6.1 类与类的封装 125
6.1.1 面向对象编程的概念 126
6.1.2 类的封装 127
6.2 类的定义与访问 128
6.2.1 定义一个Python类 128
6.2.2 类实例化为对象 130
6.2.3 访问对象的属性和方法 131
6.2.4 使用内置函数操作对象的
属性 133
6.2.5 类方法的不同称谓及作用 133
6.2.6 类属性的不同称谓及作用 136
6.3 类的继承 137
6.4 类的多态性 140
6.4.1 认识类的多态性 140
6.4.2 pass语句 143
6.5 编程练习 144
第二篇 办公自动化
第7章 文件批处理 146
7.1 文件批量命名 146
7.1.1 文件和目录 146
7.1.2 拼接文件路径 147
7.1.3 提取文件创建时间 147
7.1.4 文件重命名 148
7.1.5 提取文件扩展名 148
7.1.6 判断文件和目录 148
7.1.7 遍历文件 149
7.1.8 文件批量命令示例 149
7.2 文件内容批量替换 150
7.2.1 open函数 150
7.2.2 读取文件内容 152
7.2.3 替换文件内容 153
7.2.4 保存文件到磁盘 153
7.2.5 批量替换示例 154
7.3 创建文件和目录 155
7.3.1 创建单个目录 155
7.3.2 with语句与上下文管理 156
7.3.3 批量创建目录 157
7.3.4 批量创建文件 157
7.3.5 文件和目录批量创建示例 158
7.4 提取文件属性 159
7.4.1 提取文件修改时间 159
7.4.2 提取文件近访问时间 160
7.4.3 提取文件大小 160
7.4.4 读写CSV文件 160
7.4.5 遍历子目录 162
7.4.6 文件属性提取示例 162
7.5 编程练习 164
第8章 使用正则表达式对文本内容进行
批处理 165
8.1 入门正则表达式 165
8.1.1 原始字符串标记 165
8.1.2 初识正则表达式 166
8.1.3 正则表达式元字符 169
8.1.4 正则匹配模式及其标志 172
8.2 正则表达式相关的对象 173
8.2.1 正则表达式对象 173
8.2.2 Math对象 178
8.3 批量检查和替换文本内容 181
8.3.1 敏感词批量检测 181
8.3.2 校验通讯录的邮箱格式 182
8.3.3 批量替换指定的文本内容 183
8.3.4 批量提取符合规则的内容 184
8.4 编程练习 185
第9章 Excel数据分析自动化 187
9.1 科学计算工具NumPy 187
9.1.1 安装NumPy 187
9.1.2 NumPy数组 187
9.1.3 数组操作 190
9.1.4 数组的索引和访问 191
9.1.5 数组的切片 192
9.1.6 花式索引 194
9.1.7 布尔索引 195
9.1.8 where函数 196
9.2 数据分析工具pandas 197
9.2.1 安装pandas库 197
9.2.2 pandas数据对象 197
9.2.3 重新索引 198
9.2.4 算术运算 199
9.2.5 使用函数处理数据 200
9.3 Excel工作簿的读取与写入 202
9.3.1 Excel文件构成 202
9.3.2 读取Excel工作表 202
9.3.3 访问Excel单元格数据 204
9.3.4 DataFrame数据写入Excel
工作簿 204
9.4 Excel的提取与合并 206
9.4.1 将多个工作簿提取到一个
工作簿 206
9.4.2 将多个工作簿提取到一个
工作表 208
9.4.3 将同名工作表提取到一个
工作表 208
9.4.4 将同名工作表提取到一个
工作簿 209
9.5 数据可视化工具Matplotlib 210
9.5.1 安装Matplotlib库 210
9.5.2 使用Matplotlib绘图 210
9.5.3 绘制函数图像 213
9.5.4 绘制柱状图 217
9.5.5 绘制折线图 218
9.5.6 绘制散点图 220
9.6 Excel汇总统计 221
9.6.1 同一工作簿下的多工作表
汇总 221
9.6.2 将多个工作簿汇总到一个
工作簿 223
9.6.3 自动生成数据透视表 224
9.7 数据分析案例 226
9.7.1 泰坦尼克号沉船乘客数据 226
9.7.2 缺失值和异常值的处理 226
9.7.3 统计男女乘客人数、船舱等级
分布人数和儿童人数 227
9.7.4 分别统计船舱等级、性别、
年龄段对应的获救情况 229
9.8 Excel报表自动化 232
9.8.1 报表任务 232
9.8.2 日期和时间类型 233
9.8.3 数据分析 237
9.8.4 生成报表 238
9.9 编程练习 240
第 10章 图片批处理 241
10.1 Pillow库 241
10.1.1 安装Pillow库 241
10.1.2 Image对象 241
10.1.3 ImageDraw对象 243
10.2 图片格式批量转换 244
10.2.1 读取图片文件 244
10.2.2 设置图片尺寸 244
10.2.3 图片格式转换 245
10.2.4 格式批量转换示例 245
10.3 图片效果处理 246
10.3.1 ImageFilter对象 246
10.3.2 模糊滤镜的使用 247
10.3.3 轮廓滤镜的使用 247
10.3.4 浮雕滤镜的使用 248
10.3.5 彩色图像处理为灰度图像 248
10.3.6 图片效果示例 249
10.4 图片添加文字和水印 250
10.4.1 图片添加文字 250
10.4.2 图片添加水印 250
10.4.3 添加文字和水印示例 251
10.5 编程练习 252
第 11章 爬取互联网数据 253
11.1 入门爬虫 253
11.1.1 安装Scrapy 253
11.1.2 一个简单的爬虫项目 254
11.2 HTML与XPath 257
11.2.1 标记语言 257
11.2.2 XPath语法 259
11.2.3 定位符号 260
11.2.4 运算符 261
11.2.5 谓词 261
11.2.6 XPath函数 261
11.3 Scrapy框架 264
11.3.1 爬虫的基本工作原理 264
11.3.2 Scrapy爬虫的工作机制 265
11.3.3 请求与响应 265
11.3.4 Request对象 266
11.3.5 改进百度新闻爬虫项目 267
11.3.6 选择器 270
11.3.7 数据的定义 271
11.3.8 数据的处理ItemLoader类 272
11.3.9 Scrapy内置数据处理器 273
11.3.10 为每个Item数据项添加处理器 275
11.3.11 爬虫Spider类 277
11.3.12 CrawlSpider类 279
11.3.13 配置文件 280
11.3.14 Pipeline管道类 281
11.4 爬取互联网文本内容 283
11.4.1 任务描述 283
11.4.2 创建CrawlSpider爬虫 283
11.4.3 定义Item数据容器 284
11.4.4 定义数据处理ItemLoader类 284
11.4.5 定义Pipeline管道类 286
11.4.6 编辑CrawlSpider爬虫代码 287
11.5 爬取互联网图片 288
11.5.1 任务描述 288
11.5.2 图片管道对象 288
11.5.3 使用图片管道对象 290
11.5.4 生成缩略图 294
11.5.5 图片近下载延迟调整 294
11.6 爬取互联网文件 294
11.6.1 任务描述 295
11.6.2 分析网站 295
11.6.3 定义数据项 296
11.6.4 文件下载管道类 296
11.6.5 修改配置文件 297
11.6.6 编辑爬虫文件 297
11.6.7 运行爬虫 298
11.7 编程练习 299
第 12章 PDF文档处理自动化 300
12.1 批量合并PDF文档 300
12.1.1 安装PyPDF2 300
12.1.2 读取PDF 300
12.1.3 写入PDF 301
12.1.4 合并PDF示例 302
12.2 拆分PDF文档 304
12.2.1 章节提取 304
12.2.2 设置页码 305
12.2.3 拆分PDF示例 305
12.3 输出图片 305
12.3.1 安装PyMuPDF 306
12.3.2 使用PyMuPDF 306
12.3.3 图片输出示例 307
12.4 提取文本 307
12.4.1 内容提取 307
12.4.2 软换行和空行处理 308
12.4.3 文本提取示例 308
12.5 编程练习 310
猜您喜欢