书籍详情
Python无监督学习
作者:[德] 朱塞佩·博纳科尔索(Giuseppe Bonaccorso) 著,瞿源,刘江峰 译
出版社:人民邮电出版社
出版时间:2020-09-01
ISBN:9787115540720
定价:¥79.00
购买这本书可以去
内容简介
机器学习是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。无监督学习是机器学习中的一种学习方式,是数据科学的一个重要分支,常用于数据挖掘领域,通过构建模型来为业务决策提供依据。本书通过Python语言讲解无监督学习,全书内容包括10章,前面9章由浅入深地讲解了无监督学习的基础知识、聚类的基础知识、高级聚类、层次聚类、软聚类和高斯混合模型、异常检测、降维和分量分析、无监督神经网络模型、生成式对抗网络和自组织映射,第10章以问题解答的形式对前面9章涉及的问题给出了解决方案。本书适合数据科学家、机器学习从业者和普通的软件开发人员阅读,通过学习本书介绍的无监督学习理论和Python编程方法,读者能够在业务实践中获得有价值的参考。
作者简介
朱塞佩.博纳科尔索(Giuseppe Bonaccorso)是人工智能、数据科学和机器学习领域的资深从业人员。他曾参与了不同业务环境下的解决方案设计、管理和交付。他于2005年在意大利的卡塔尼亚大学(University of Catania)获得电子工程学硕士学位,并继续在意大利罗马第二大学(University of Rome Tor Vergata)和英国埃塞克斯大学(University of Essex)学习。他的兴趣主要包括机器/深度学习、强化学习、大数据,以及受生物启发的自适应系统、神经科学和自然语言处理等。
目录
第 1章 无监督学习入门 1
1.1 技术要求 1
1.2 为什么需要机器学习 2
1.2.1 描述性分析 3
1.2.2 诊断性分析 4
1.2.3 预测性分析 4
1.2.4 规范性分析 7
1.3 机器学习算法的类型 7
1.3.1 有监督学习算法 8
1.3.2 无监督学习算法 11
1.3.3 半监督学习算法 16
1.3.4 强化学习算法 17
1.4 为什么用Python进行数据科学和机器学习 18
1.5 总结 19
1.6 问题 19
第 2章 聚类基础知识 20
2.1 技术要求 20
2.2 聚类介绍 21
2.3 K-means 26
2.4 威斯康星州乳腺癌数据集分析 27
2.5 评估指标 33
2.5.1 最小化惯性 33
2.5.2 轮廓分数 38
2.5.3 完整性分数 40
2.5.4 同质性分数 42
2.5.5 调整后的相互信息分数 43
2.5.6 调整后的兰德分数 44
2.5.7 列联矩阵 45
2.6 K-近邻 46
2.7 向量量化 50
2.8 总结 56
2.9 问题 57
第3章 高级聚类 58
3.1 技术要求 58
3.2 谱聚类 59
3.3 均值漂移 63
3.4 DBSCAN 67
3.4.1 Calinski-Harabasz分数 69
3.4.2 使用DBSCAN分析工作数据集中的缺勤率 69
3.4.3 聚类不稳定性作为性能指标 76
3.5 K-medoids 79
3.6 联机聚类 83
3.6.1 Mini-batch K-means 83
3.6.2 BIRCH 84
3.6.3 Mini-batch K-means与BIRCH的比较 86
3.7 总结 89
3.8 问题 90
第4章 实操中的层次聚类 91
4.1 技术要求 91
4.2 聚类层次结构 92
4.3 凝聚聚类 93
4.3.1 单一链和完整链 94
4.3.2 平均链 95
4.3.3 Ward链 96
4.4 树状图分析 96
4.5 同表型相关性系数作为一种性能指标 101
4.6 水处理厂数据集的凝聚聚类 103
4.7 连通性约束 109
4.8 总结 113
4.9 问题 113
第5章 软聚类和高斯混合模型 115
5.1 技术要求 115
5.2 软聚类 116
5.3 Fuzzy c-means 117
5.4 高斯混合 121
5.4.1 高斯混合的EM算法 123
5.4.2 用AIC和BIC方法评估高斯混合的性能 129
5.4.3 贝叶斯高斯混合选择成分 131
5.4.4 生成高斯混合 135
5.5 总结 139
5.6 问题 140
第6章 异常检测 141
6.1 技术要求 141
6.2 概率密度函数 142
6.2.1 作为异常值或新值的异常 143
6.2.2 数据集结构 144
6.3 直方图 145
6.4 核密度估计 148
6.4.1 高斯内核 148
6.4.2 Epanechnikov内核 149
6.4.3 指数内核 150
6.4.4 均匀/Tophat内核 151
6.4.5 估计密度 151
6.5 应用异常检测 156
6.6 单类支持向量机 164
6.7 基于孤立森林的异常检测 168
6.8 总结 172
6.9 问题 173
第7章 降维与分量分析 175
7.1 技术要求 175
7.2 主成分分析 176
7.2.1 具有奇异值分解的PCA 178
7.2.2 具有MNIST数据集的PCA 181
7.2.3 基于内核的主成分分析 183
7.2.4 通过因子分析增加异方差噪声的强壮性 186
7.2.5 稀疏主成分分析与字典学习 188
7.2.6 非负矩阵分解 190
7.3 独立成分分析 193
7.4 具有潜在Dirichlet分配的主题建模 197
7.5 总结 202
7.6 问题 202
第8章 无监督神经网络模型 204
8.1 技术要求 204
8.2 自编码器 205
8.2.1 深度卷积自编码器示例 206
8.2.2 去噪自编码器 211
8.2.3 稀疏自编码器 213
8.2.4 变分自编码器 215
8.3 基于赫布的主成分分析 221
8.3.1 Sanger网络 221
8.3.2 Rubner-Tavan网络 226
8.4 无监督的深度置信网络 230
8.4.1 受限玻尔兹曼机 231
8.4.2 深度置信网络 232
8.4.3 无监督DBN示例 233
8.5 总结 235
8.6 问题 236
第9章 生成式对抗网络和自组织映射 237
9.1 技术要求 237
9.2 生成式对抗网络 238
9.2.1 GAN分析 240
9.2.2 深度卷积GAN示例 242
9.2.3 Wasserstein GAN 251
9.3 自组织映射 260
9.4 总结 265
9.5 问题 266
第 10章 问题解答 267
10.1 第 1章 267
10.2 第 2章 268
10.3 第3章 268
10.4 第4章 269
10.5 第5章 269
10.6 第6章 270
10.7 第7章 271
10.8 第8章 271
10.9 第9章 272
1.1 技术要求 1
1.2 为什么需要机器学习 2
1.2.1 描述性分析 3
1.2.2 诊断性分析 4
1.2.3 预测性分析 4
1.2.4 规范性分析 7
1.3 机器学习算法的类型 7
1.3.1 有监督学习算法 8
1.3.2 无监督学习算法 11
1.3.3 半监督学习算法 16
1.3.4 强化学习算法 17
1.4 为什么用Python进行数据科学和机器学习 18
1.5 总结 19
1.6 问题 19
第 2章 聚类基础知识 20
2.1 技术要求 20
2.2 聚类介绍 21
2.3 K-means 26
2.4 威斯康星州乳腺癌数据集分析 27
2.5 评估指标 33
2.5.1 最小化惯性 33
2.5.2 轮廓分数 38
2.5.3 完整性分数 40
2.5.4 同质性分数 42
2.5.5 调整后的相互信息分数 43
2.5.6 调整后的兰德分数 44
2.5.7 列联矩阵 45
2.6 K-近邻 46
2.7 向量量化 50
2.8 总结 56
2.9 问题 57
第3章 高级聚类 58
3.1 技术要求 58
3.2 谱聚类 59
3.3 均值漂移 63
3.4 DBSCAN 67
3.4.1 Calinski-Harabasz分数 69
3.4.2 使用DBSCAN分析工作数据集中的缺勤率 69
3.4.3 聚类不稳定性作为性能指标 76
3.5 K-medoids 79
3.6 联机聚类 83
3.6.1 Mini-batch K-means 83
3.6.2 BIRCH 84
3.6.3 Mini-batch K-means与BIRCH的比较 86
3.7 总结 89
3.8 问题 90
第4章 实操中的层次聚类 91
4.1 技术要求 91
4.2 聚类层次结构 92
4.3 凝聚聚类 93
4.3.1 单一链和完整链 94
4.3.2 平均链 95
4.3.3 Ward链 96
4.4 树状图分析 96
4.5 同表型相关性系数作为一种性能指标 101
4.6 水处理厂数据集的凝聚聚类 103
4.7 连通性约束 109
4.8 总结 113
4.9 问题 113
第5章 软聚类和高斯混合模型 115
5.1 技术要求 115
5.2 软聚类 116
5.3 Fuzzy c-means 117
5.4 高斯混合 121
5.4.1 高斯混合的EM算法 123
5.4.2 用AIC和BIC方法评估高斯混合的性能 129
5.4.3 贝叶斯高斯混合选择成分 131
5.4.4 生成高斯混合 135
5.5 总结 139
5.6 问题 140
第6章 异常检测 141
6.1 技术要求 141
6.2 概率密度函数 142
6.2.1 作为异常值或新值的异常 143
6.2.2 数据集结构 144
6.3 直方图 145
6.4 核密度估计 148
6.4.1 高斯内核 148
6.4.2 Epanechnikov内核 149
6.4.3 指数内核 150
6.4.4 均匀/Tophat内核 151
6.4.5 估计密度 151
6.5 应用异常检测 156
6.6 单类支持向量机 164
6.7 基于孤立森林的异常检测 168
6.8 总结 172
6.9 问题 173
第7章 降维与分量分析 175
7.1 技术要求 175
7.2 主成分分析 176
7.2.1 具有奇异值分解的PCA 178
7.2.2 具有MNIST数据集的PCA 181
7.2.3 基于内核的主成分分析 183
7.2.4 通过因子分析增加异方差噪声的强壮性 186
7.2.5 稀疏主成分分析与字典学习 188
7.2.6 非负矩阵分解 190
7.3 独立成分分析 193
7.4 具有潜在Dirichlet分配的主题建模 197
7.5 总结 202
7.6 问题 202
第8章 无监督神经网络模型 204
8.1 技术要求 204
8.2 自编码器 205
8.2.1 深度卷积自编码器示例 206
8.2.2 去噪自编码器 211
8.2.3 稀疏自编码器 213
8.2.4 变分自编码器 215
8.3 基于赫布的主成分分析 221
8.3.1 Sanger网络 221
8.3.2 Rubner-Tavan网络 226
8.4 无监督的深度置信网络 230
8.4.1 受限玻尔兹曼机 231
8.4.2 深度置信网络 232
8.4.3 无监督DBN示例 233
8.5 总结 235
8.6 问题 236
第9章 生成式对抗网络和自组织映射 237
9.1 技术要求 237
9.2 生成式对抗网络 238
9.2.1 GAN分析 240
9.2.2 深度卷积GAN示例 242
9.2.3 Wasserstein GAN 251
9.3 自组织映射 260
9.4 总结 265
9.5 问题 266
第 10章 问题解答 267
10.1 第 1章 267
10.2 第 2章 268
10.3 第3章 268
10.4 第4章 269
10.5 第5章 269
10.6 第6章 270
10.7 第7章 271
10.8 第8章 271
10.9 第9章 272
猜您喜欢