书籍详情
数据科学概念与实践(原书第2版)
作者:[美] 维贾伊·库图,巴拉·德斯潘德 著,黄智濒 白鹏译 译
出版社:机械工业出版社
出版时间:2020-09-01
ISBN:9787111663041
定价:¥119.00
购买这本书可以去
内容简介
数据科学已经成为从数据中提取价值的基本工具,任何企业都可以将数据收集、存储和处理作为其业务的一部分。本书搭建了一个易于理解的概念框架,帮助读者掌握数据科学的基础知识,并在学习理论的过程中同步使用RapidMiner平台进行实践。书中将分享实用的数据分析方法,讨论如何揭示隐藏的模式和关系,无论你是新手还是专家,都能借助这些方法做出更好的决策和预测。本书非常适合商务用户、数据分析师、商务分析师、工程师和分析专家以及任何与数据打交道的人。
作者简介
暂缺《数据科学概念与实践(原书第2版)》作者简介
目录
赞誉
译者序
序言
前言
致谢
作者简介
第1章 简介 1
1.1 AI、机器学习和数据科学 2
1.2 什么是数据科学 3
1.2.1 提取有意义的模式 3
1.2.2 构建表示模型 3
1.2.3 统计、机器学习和计算的结合 4
1.2.4 学习算法 4
1.2.5 相关领域 4
1.3 数据科学的案例 5
1.3.1 体量 5
1.3.2 维度 5
1.3.3 复杂问题 6
1.4 数据科学的分类 6
1.5 数据科学的算法 7
1.6 本书路线图 8
1.6.1 数据科学入门 8
1.6.2 练习使用RapidMiner 8
1.6.3 核心算法 9
参考文献 11
第2章 数据科学过程 12
2.1 先验知识 13
2.1.1 目标 13
2.1.2 主题范围 14
2.1.3 数据 14
2.1.4 因果关系与相关性 15
2.2 数据准备 15
2.2.1 数据探索 15
2.2.2 数据质量 16
2.2.3 缺失值 16
2.2.4 数据类型和转换 16
2.2.5 转换 17
2.2.6 异常值 17
2.2.7 特征选择 17
2.2.8 数据采样 17
2.3 建模 18
2.3.1 训练数据集和测试数据集 18
2.3.2 学习算法 19
2.3.3 模型评估 20
2.3.4 集成模型 20
2.4 应用 21
2.4.1 生产准备 21
2.4.2 技术整合 21
2.4.3 响应时间 21
2.4.4 模型刷新 22
2.4.5 同化 22
2.5 知识 22
参考文献 23
第3章 数据探索 24
3.1 数据探索的目标 24
3.2 数据集 25
3.3 描述性统计 26
3.3.1 单变量探索 27
3.3.2 多变量探索 28
3.4 数据可视化 30
3.4.1 单变量的可视化 31
3.4.2 多变量的可视化 34
3.4.3 可视化高维数据 38
3.5 数据探索的路线图 40
参考文献 41
第4章 分类 42
4.1 决策树 42
4.1.1 工作原理 42
4.1.2 实现过程 47
4.1.3 小结 55
4.2 规则归纳 56
4.2.1 工作原理 58
4.2.2 实现过程 60
4.2.3 小结 63
4.3 k-NN(k-近邻) 63
4.3.1 工作原理 64
4.3.2 实现过程 69
4.3.3 小结 71
4.4 朴素贝叶斯 71
4.4.1 工作原理 72
4.4.2 实现过程 77
4.4.3 小结 79
4.5 人工神经网络 80
4.5.1 工作原理 82
4.5.2 实现过程 84
4.5.3 小结 86
4.6 支持向量机 87
4.6.1 工作原理 89
4.6.2 实现过程 91
4.6.3 小结 95
4.7 集成学习 95
4.7.1 工作原理 97
4.7.2 实现过程 98
4.7.3 小结 105
参考文献 105
第5章 回归方法 107
5.1 线性回归 107
5.1.1 工作原理 108
5.1.2 实现过程 112
5.1.3 检查点 117
5.2 逻辑回归 120
5.2.1 工作原理 122
5.2.2 实现过程 124
5.2.3 总结要点 127
5.3 总结 127
参考文献 127
第6章 关联分析 128
6.1 挖掘关联规则 129
6.1.1 项集 130
6.1.2 规则生成 132
6.2 Apriori算法 133
6.3 频繁模式增长算法 136
6.3.1 工作原理 136
6.3.2 实现过程 138
6.4 总结 141
参考文献 141
第7章 聚类 142
7.1 k-means聚类 145
7.1.1 工作原理 147
7.1.2 实现过程 149
7.2 DBSCAN聚类 153
7.2.1 工作原理 153
7.2.2 实现过程 155
7.3 自组织映射 158
7.3.1 工作原理 159
7.3.2 实现过程 161
参考文献 166
第8章 模型评估 168
8.1 混淆矩阵 169
8.2 ROC和AUC 170
8.3 提升曲线 172
8.4 实现过程 174
8.5 总结 177
参考文献 178
第9章 文本挖掘 179
9.1 工作原理 180
9.1.1 词频–逆文档频率 180
9.1.2 词语 181
9.2 实现过程 184
9.2.1 实现1:关键词聚类 184
9.2.2 实现2:预测博客作者的性别 187
9.3 总结 193
参考文献 194
第10章 深度学习 195
10.1 AI冬天 197
10.1.1 AI冬天:20世纪70年代 197
10.1.2 冬季解冻:20世纪80年代 198
10.1.3 人工智能的春夏:2006年至今 200
10.2 工作原理 201
10.2.1 神经网络的回归模型 201
10.2.2 梯度下降法 202
10.2.3 需要反向传播 204
10.2.4 分类超过2个:softmax 205
10.2.5 卷积神经网络 207
10.2.6 密集层 211
10.2.7 随机失活层 211
10.2.8 循环神经网络 212
10.2.9 自动编码器 213
10.2.10 相关AI模型 213
10.3 实现过程 214
10.4 总结 217
参考文献 218
第11章 推荐引擎 219
11.1 推荐引擎的概念 221
11.2 协同过滤 225
11.2.1 基于邻域的方法 226
11.2.2 矩阵分解 233
11.3 基于内容的过滤 238
11.3.1 用户画像的计算 239
11.3.2 有监督学习方法 245
11.4 混合推荐器 249
11.5 总结 250
参考文献 251
第12章 时间序列预测 253
12.1 时间序列分解 256
12.1.1 经典分解 258
12.1.2 实现过程 258
12.2 基于平滑的方法 260
12.2.1 简单预测方法 260
12.2.2 指数平滑 261
12.2.3 实现过程 263
12.3 基于回归的方法 264
12.3.1 回归 265
12.3.2 周期性回归 266
12.3.3 集成移动平均自回归模型 268
12.3.4 周期性ARIMA 272
12.4 机器学习方法 274
12.4.1 窗口化 275
12.4.2 神经网络自回归 280
12.
译者序
序言
前言
致谢
作者简介
第1章 简介 1
1.1 AI、机器学习和数据科学 2
1.2 什么是数据科学 3
1.2.1 提取有意义的模式 3
1.2.2 构建表示模型 3
1.2.3 统计、机器学习和计算的结合 4
1.2.4 学习算法 4
1.2.5 相关领域 4
1.3 数据科学的案例 5
1.3.1 体量 5
1.3.2 维度 5
1.3.3 复杂问题 6
1.4 数据科学的分类 6
1.5 数据科学的算法 7
1.6 本书路线图 8
1.6.1 数据科学入门 8
1.6.2 练习使用RapidMiner 8
1.6.3 核心算法 9
参考文献 11
第2章 数据科学过程 12
2.1 先验知识 13
2.1.1 目标 13
2.1.2 主题范围 14
2.1.3 数据 14
2.1.4 因果关系与相关性 15
2.2 数据准备 15
2.2.1 数据探索 15
2.2.2 数据质量 16
2.2.3 缺失值 16
2.2.4 数据类型和转换 16
2.2.5 转换 17
2.2.6 异常值 17
2.2.7 特征选择 17
2.2.8 数据采样 17
2.3 建模 18
2.3.1 训练数据集和测试数据集 18
2.3.2 学习算法 19
2.3.3 模型评估 20
2.3.4 集成模型 20
2.4 应用 21
2.4.1 生产准备 21
2.4.2 技术整合 21
2.4.3 响应时间 21
2.4.4 模型刷新 22
2.4.5 同化 22
2.5 知识 22
参考文献 23
第3章 数据探索 24
3.1 数据探索的目标 24
3.2 数据集 25
3.3 描述性统计 26
3.3.1 单变量探索 27
3.3.2 多变量探索 28
3.4 数据可视化 30
3.4.1 单变量的可视化 31
3.4.2 多变量的可视化 34
3.4.3 可视化高维数据 38
3.5 数据探索的路线图 40
参考文献 41
第4章 分类 42
4.1 决策树 42
4.1.1 工作原理 42
4.1.2 实现过程 47
4.1.3 小结 55
4.2 规则归纳 56
4.2.1 工作原理 58
4.2.2 实现过程 60
4.2.3 小结 63
4.3 k-NN(k-近邻) 63
4.3.1 工作原理 64
4.3.2 实现过程 69
4.3.3 小结 71
4.4 朴素贝叶斯 71
4.4.1 工作原理 72
4.4.2 实现过程 77
4.4.3 小结 79
4.5 人工神经网络 80
4.5.1 工作原理 82
4.5.2 实现过程 84
4.5.3 小结 86
4.6 支持向量机 87
4.6.1 工作原理 89
4.6.2 实现过程 91
4.6.3 小结 95
4.7 集成学习 95
4.7.1 工作原理 97
4.7.2 实现过程 98
4.7.3 小结 105
参考文献 105
第5章 回归方法 107
5.1 线性回归 107
5.1.1 工作原理 108
5.1.2 实现过程 112
5.1.3 检查点 117
5.2 逻辑回归 120
5.2.1 工作原理 122
5.2.2 实现过程 124
5.2.3 总结要点 127
5.3 总结 127
参考文献 127
第6章 关联分析 128
6.1 挖掘关联规则 129
6.1.1 项集 130
6.1.2 规则生成 132
6.2 Apriori算法 133
6.3 频繁模式增长算法 136
6.3.1 工作原理 136
6.3.2 实现过程 138
6.4 总结 141
参考文献 141
第7章 聚类 142
7.1 k-means聚类 145
7.1.1 工作原理 147
7.1.2 实现过程 149
7.2 DBSCAN聚类 153
7.2.1 工作原理 153
7.2.2 实现过程 155
7.3 自组织映射 158
7.3.1 工作原理 159
7.3.2 实现过程 161
参考文献 166
第8章 模型评估 168
8.1 混淆矩阵 169
8.2 ROC和AUC 170
8.3 提升曲线 172
8.4 实现过程 174
8.5 总结 177
参考文献 178
第9章 文本挖掘 179
9.1 工作原理 180
9.1.1 词频–逆文档频率 180
9.1.2 词语 181
9.2 实现过程 184
9.2.1 实现1:关键词聚类 184
9.2.2 实现2:预测博客作者的性别 187
9.3 总结 193
参考文献 194
第10章 深度学习 195
10.1 AI冬天 197
10.1.1 AI冬天:20世纪70年代 197
10.1.2 冬季解冻:20世纪80年代 198
10.1.3 人工智能的春夏:2006年至今 200
10.2 工作原理 201
10.2.1 神经网络的回归模型 201
10.2.2 梯度下降法 202
10.2.3 需要反向传播 204
10.2.4 分类超过2个:softmax 205
10.2.5 卷积神经网络 207
10.2.6 密集层 211
10.2.7 随机失活层 211
10.2.8 循环神经网络 212
10.2.9 自动编码器 213
10.2.10 相关AI模型 213
10.3 实现过程 214
10.4 总结 217
参考文献 218
第11章 推荐引擎 219
11.1 推荐引擎的概念 221
11.2 协同过滤 225
11.2.1 基于邻域的方法 226
11.2.2 矩阵分解 233
11.3 基于内容的过滤 238
11.3.1 用户画像的计算 239
11.3.2 有监督学习方法 245
11.4 混合推荐器 249
11.5 总结 250
参考文献 251
第12章 时间序列预测 253
12.1 时间序列分解 256
12.1.1 经典分解 258
12.1.2 实现过程 258
12.2 基于平滑的方法 260
12.2.1 简单预测方法 260
12.2.2 指数平滑 261
12.2.3 实现过程 263
12.3 基于回归的方法 264
12.3.1 回归 265
12.3.2 周期性回归 266
12.3.3 集成移动平均自回归模型 268
12.3.4 周期性ARIMA 272
12.4 机器学习方法 274
12.4.1 窗口化 275
12.4.2 神经网络自回归 280
12.
猜您喜欢