大数据采集、预处理与可视化(微课版)
作者:葛继科,张晓琴,陈祖琴
出版社:人民邮电出版社
出版时间:2023-07-01
ISBN:9787115614353
定价:¥69.80
【章名目录】
第 1章 大数据概述
第2章 Python程序设计
第3章 大数据采集
第4章 大数据预处理技术
第5章 Excel数据获取与预处理
第6章 Python数据预处理
第7章 数据可视化技术
【详细目录】
第 1章 大数据概述
1.1 大数据时代 1
1.2 大数据的相关概念及特征 2
1.2.1 大数据的概念 2
1.2.2 大数据的发展历程 3
1.2.3 大数据的特征 5
1.2.4 大数据的作用 6
1.2.5 大数据的应用领域 7
1.2.6 大数据的关键技术 8
1.3 大数据系统简介 9
1.3.1 Hadoop生态系统 9
1.3.2 Spark生态系统 12
1.4 大数据思维 15
1.4.1 传统思维方式 15
1.4.2 大数据思维方式 16
1.5 大数据伦理 17
1.5.1 大数据伦理的由来 17
1.5.2 大数据的伦理问题 18
1.5.3 大数据的伦理原则 21
1.6 大数据安全 22
1.6.1 数据全生命周期安全 22
1.6.2 大数据安全防护技术 23
1.7 本章小结 24
1.8 习题 24
第2章 Python程序设计
2.1 Python的安装与运行 25
2.1.1 Python的特点 25
2.1.2 Python的下载与安装 26
2.1.3 Python程序的运行 27
2.1.4 第三方软件包的安装 29
2.1.5 Python编程规范 31
2.2 数据类型与运算符 33
2.2.1 数字和字符串 33
2.2.2 列表和元组 38
2.2.3 字典和集合 42
2.2.4 运算符 44
2.3 程序控制结构 47
2.3.1 程序流程图 47
2.3.2 顺序结构 48
2.3.3 选择结构 49
2.3.4 循环结构 51
2.4 函数与模块 54
2.4.1 函数的使用 54
2.4.2 函数的参数传递 55
2.4.3 全局变量与局部变量 57
2.4.4 匿名函数 58
2.4.5 模块 59
2.5 文件 60
2.5.1 文件的打开与关闭 60
2.5.2 文件的读取与写入 62
2.5.3 文件的定位 63
2.6 本章小结 63
2.7 习题 64
第3章 大数据采集
3.1 大数据采集概述 65
3.1.1 大数据采集的概念 65
3.1.2 大数据采集的数据源 66
3.1.3 大数据采集方法 67
3.1.4 大数据采集平台 69
3.2 网络爬虫技术 71
3.2.1 网络爬虫概述 72
3.2.2 常用网络爬虫方法 72
3.2.3 网页数据采集的实现 75
3.2.4 常用网络爬虫工具 78
3.2.5 电影评论爬取 82
3.3 数据抽取技术 85
3.3.1 数据抽取概述 85
3.3.2 Kettle简介与其安装 86
3.3.3 文本数据抽取 87
3.3.4 网页数据抽取 89
3.4 案例:网络租房信息采集 91
3.4.1 网络爬虫采集数据 91
3.4.2 抽取租房信息 94
3.5 本章小结 96
3.6 习题 96
第4章 大数据预处理技术
4.1 数据预处理概述 97
4.1.1 数据质量 97
4.1.2 数据预处理的主要任务 99
4.2 数据清洗 99
4.2.1 缺失值处理方法 99
4.2.2 噪声数据处理方法 101
4.2.3 冗余数据处理方法 105
4.2.4 数据格式与内容处理方法 106
4.3 数据集成 106
4.3.1 实体识别问题 106
4.3.2 冗余问题 107
4.3.3 数据值冲突的检测与处理 109
4.4 数据变换 110
4.4.1 数据规范化 110
4.4.2 通过离散化变换数据 112
4.5 数据归约 113
4.5.1 过滤法 114
4.5.2 包装法 115
4.5.3 嵌入法 116
4.6 数据脱敏 117
4.6.1 数据脱敏类型 117
4.6.2 数据脱敏方法 118
4.7 案例:汽车行驶工况数据预处理 119
4.7.1 案例背景 119
4.7.2 数据描述 119
4.7.3 数据预处理 120
4.8 本章小结 124
4.9 习题 125
第5章 Excel数据获取与预处理
5.1 Excel数据获取 126
5.1.1 获取文本数据 126
5.1.2 获取网站数据 128
5.1.3 获取数据库中的数据 130
5.2 Excel数据清洗与转换 132
5.2.1 常用数据分析函数 132
5.2.2 删除重复行 136
5.2.3 文本查找与替换 137
5.2.4 字符串截取 139
5.2.5 数据的转置 140
5.2.6 数据的查询和引用 140
5.2.7 字母与数字的转换 142
5.3 Excel数据抽取与合并 143
5.3.1 值的抽取 144
5.3.2 数据合并 146
5.3.3 字段合并 147
5.4 案例:房价行情的对比分析 148
5.4.1 数据获取 148
5.4.2 数据预处理与分析 149
5.5 本章小结 151
5.6 习题 151
第6章 Python数据预处理
6.1 Python数据预处理基础 153
6.1.1 科学计算库NumPy 153
6.1.2 数据分析库pandas 160
6.2 数据的分组、分割、合并和变形 168
6.2.1 数据分组 168
6.2.2 数据分割 171
6.2.3 数据合并 172
6.2.4 数据变形 175
6.3 缺失值、异常值和重复值处理 177
6.3.1 缺失值处理 177
6.3.2 异常值处理 181
6.3.3 重复值处理 185
6.4 时间序列数据处理 185
6.4.1 时间序列的基本操作 186
6.4.2 固定频率的时间序列 187
6.4.3 时间周期及其计算 188
6.5 文本数据分析 189
6.5.1 字符串处理方法 189
6.5.2 文本数据分析工具 191
6.5.3 正则表达式 194
6.5.4 文本预处理 196
6.6 案例:IMDb5000电影数据预处理 199
6.6.1 数据分析及代码实现 199
6.6.2 完整代码 201
6.7 本章小结 203
6.8 习题 203
第7章 数据可视化技术
7.1 数据可视化概述 205
7.1.1 数据可视化的定义 205
7.1.2 数据可视化的发展历程 206
7.1.3 数据可视化的作用 211
7.2 数据可视化的理论基础 212
7.2.1 数据可视化的流程 212
7.2.2 数据可视化的设计要素 213
7.2.3 数据可视化的基础图表 216
7.2.4 数据可视化的常见工具 219
7.3 Python数据可视化方法 221
7.3.1 Matplotlib绘制基础图表 221
7.3.2 seaborn绘制统计图 229
7.3.3 wordcloud绘制词云图 254
7.3.4 NetworkX绘制网络图 257
7.3.5 案例:重庆公开庭审数据可视化 260
7.4 pyecharts数据可视化方法 265
7.4.1 pyecharts简介 265
7.4.2 pyecharts应用 266
7.4.3 案例:2020年东京奥运会奖牌看板 267
7.5 本章小结 278
7.6 习题 279
参考文献 280