书籍详情
数据挖掘导论(原书第2版)
作者:[美] 陈封能(Pang-Ning Tan) 著,段磊 张天庆 等译
出版社:机械工业出版社
出版时间:2019-08-01
ISBN:9787111631620
定价:¥139.00
购买这本书可以去
内容简介
本书从算法的角度介绍数据挖掘所使用的主要原理与技术。为了更好地理解数据挖掘技术如何用于各种类型的数据,研究这些原理与技术是至关重要的。 本书所涵盖的主题包括:数据预处理、预测建模、关联分析、聚类分析、异常检测和避免错误发现。通过介绍每个主题的基本概念和算法,为读者提供将数据挖掘应用于实际问题所需的必要背景以及方法。
作者简介
陈封能(Pang-Ning Tan) 密歇根州立大学计算机科学与工程系教授,主要研究方向是数据挖掘、数据库系统、网络空间安全、网络分析等。
目录
出版者的话
译者序
前言
第1章 绪论1
1.1 什么是数据挖掘2
1.2 数据挖掘要解决的问题3
1.3 数据挖掘的起源4
1.4 数据挖掘任务5
1.5 本书组织结构7
文献注释8
参考文献10
习题12
第2章 数据14
2.1 数据类型15
2.1.1 属性与度量16
2.1.2 数据集的类型19
2.2 数据质量24
2.2.1 测量和数据收集问题24
2.2.2 关于应用的问题27
2.3 数据预处理28
2.3.1 聚集28
2.3.2 抽样30
2.3.3 维归约31
2.3.4 特征子集选择32
2.3.5 特征创建34
2.3.6 离散化和二元化35
2.3.7 变量变换38
2.4 相似性和相异性的度量40
2.4.1 基础40
2.4.2 简单属性之间的相似度和相异度41
2.4.3 数据对象之间的相异度42
2.4.4 数据对象之间的相似度44
2.4.5 邻近度度量的例子44
2.4.6 互信息50
* 2.4.7 核函数51
* 2.4.8 Bregman散度53
2.4.9 邻近度计算问题54
2.4.10 选择正确的邻近度度量56
文献注释56
参考文献58
习题60
第3章 分类:基本概念和技术65
3.1 基本概念65
3.2 一般的分类框架67
3.3 决策树分类器69
3.3.1 构建决策树的基本算法70
3.3.2 表示属性测试条件的方法71
3.3.3 选择属性测试条件的方法73
3.3.4 决策树归纳算法79
3.3.5 示例:Web机器人检测79
3.3.6 决策树分类器的特征81
3.4 模型的过拟合85
3.5 模型选择90
3.5.1 验证集应用90
3.5.2 模型复杂度合并91
3.5.3 统计范围估计93
3.5.4 决策树的模型选择94
3.6 模型评估95
3.6.1 保持方法95
3.6.2 交叉验证96
3.7 超参数的使用97
3.7.1 超参数选择98
3.7.2 嵌套交叉验证98
3.8 模型选择和评估中的陷阱99
3.8.1 训练集和测试集之间的重叠99
3.8.2 使用验证错误率作为泛化错误率100
* 3.9 模型比较100
3.9.1 估计准确率的置信区间100
3.9.2 比较两个模型的性能101
文献注释102
参考文献105
习题108
第4章 分类:其他技术114
4.1 分类器的种类114
4.2 基于规则的分类器115
4.2.1 基于规则的分类器原理116
4.2.2 规则集的属性116
4.2.3 规则提取的直接方法117
4.2.4 规则提取的间接方法120
4.2.5 基于规则的分类器的特点121
4.3 最近邻分类器122
4.3.1 算法123
4.3.2 最近邻分类器的特点124
4.4 朴素贝叶斯分类器124
4.4.1 概率论基础125
4.4.2 朴素贝叶斯假设127
4.5 贝叶斯网络132
4.5.1 图表示132
4.5.2 推理与学习135
4.5.3 贝叶斯网络的特点139
4.6 logistic回归140
4.6.1 logistic回归用作广义线性模型141
4.6.2 学习模型参数141
4.6.3 logistic回归模型的特点142
4.7 人工神经网络143
4.7.1 感知机144
4.7.2 多层神经网络146
4.7.3 人工神经网络的特点150
4.8 深度学习151
4.8.1 使用协同损失函数151
4.8.2 使用响应激活函数153
4.8.3 正则化154
4.8.4 模型参数的初始化155
4.8.5 深度学习的特点157
4.9 支持向量机158
4.9.1 分离超平面的边缘158
4.9.2 线性SVM159
4.9.3 软边缘SVM162
4.9.4 非线性SVM165
4.9.5 SVM的特点167
4.10 组合方法168
4.10.1 组合方法的基本原理168
4.10.2 构建组合分类器的方法169
4.10.3 偏置方差分解170
4.10.4 装袋171
4.10.5 提升173
4.10.6 随机森林176
4.10.7 组合方法的实验比较177
4.11 类不平衡问题178
4.11.1 类不平衡的分类器构建179
4.11.2 带类不平衡的性能评估180
4.11.3 寻找最优的评分阈值183
4.11.4 综合评估性能183
4.12 多类问题188
文献注释189
参考文献193
习题198
第5章 关联分析:基本概念和算法205
5.1 预备知识205
5.2 频繁项集的产生207
5.2.1 先验原理209
5.2.2 Apriori算法的频繁项集产生210
5.2.3 候选项集的产生与剪枝212
5.2.4 支持度计数215
5.2.5 计算复杂度217
5.3 规则的产生219
5.3.1 基于置信度的剪枝219
5.3.2 Apriori算法中规则的产生219
5.3.3 示例:美国国会投票记录221
5.4 频繁项集的紧凑表示221
5.4.1 极大频繁项集221
5.4.2 闭项集223
* 5.5 其他产生频繁项集的方法225
* 5.6 FP增长算法228
5.6.1 FP树表示法228
5.6.2 FP增长算法的频繁项集产生229
5.7 关联模式的评估231
5.7.1 兴趣度的客观度量232
5.7.2 多个二元变量的度量239
5.7.3 辛普森悖论240
5.8 倾斜支持度分布的影响241
文献注释244
参考文献248
习题256
第6章 关联分析:高级概念263
6.1 处理分类属性263
6.2 处理连续属性264
6.2.1 基于离散化的方法265
6.2.2 基于统计学的方法267
6.2.3 非离散化方法268
6.3 处理概念分层269
6.4 序列模式270
6.4.1 预备知识270
6.4.2 序列模式发现272
* 6.4.3 时限约束275
* 6.4.4 可选计数方案278
6.5 子图模式279
6.5.1 预备知识280
6.5.2 频繁子图挖掘281
6.5.3 候选生成284
6.5.4 候选剪枝287
6.5.5 支持度计数287
* 6.6 非频繁模式287
6.6.1 负模式288
6.6.2 负相关模式288
6.6.3 非频繁模式、负模式和负相关模式比较289
6.6.4 挖掘有趣的非频繁模式的技术290
6.6.5 基于挖掘负模式的技术290
6.6.6 基于支持度期望的技术292
文献注释294
参考文献295
习题297
第7章 聚类分析:基本概念和算法306
7.1 概述307
7.1.1 什么是聚类分析307
7.1.2 聚类的不同类型308
7.1.3 簇的不同类型309
7.2 K均值310
7.2.1 K均值算法311
7.2.2 K均值:附加的问题316
7.2.3 二分K均值317
7.2.4 K均值和不同的簇类型318
7.2.5 优点与缺点319
7.2.6 K均值作为优化问题320
7.3 凝聚层次聚类321
7.3.1 基本凝聚层次聚类算法322
7.3.2 特殊技术323
7.3.3 簇邻近度的Lance-Williams公式326
7.3.4 层次聚类的主要问题327
7.3.5 离群点328
7.3.6 优点与缺点328
7.4 DBSCAN328
7.4.1 传统的密度:基于中心的方法328
7.4.2 DBSCAN算法329
7.4.3 优点与缺点331
7.5 簇评估331
7.5.1 概述332
7.5.2 无监督簇评估:使用凝聚度和分离度333
7.5.3 无监督簇评估:使用邻近度矩阵336
7.5.4 层次聚类的无监督评估339
7.5.5 确定正确的簇个数339
7.5.6 聚类趋势340
7.5.7 簇有效性的监督度量341
7.5.8 评估簇有效性度量的显著性344
7.5.9 簇有效性度量的选择345
文献注释345
参考文献347
习题349
第8章 聚类分析:其他问题与算法356
8.1 数据、簇和聚类算法的特性356
8.1.1 示例:比较K均值和DBSCAN356
8.1.2 数据特性357
8.1.3 簇特性358
8.1.4 聚类算法的一般特性359
8.2 基于原型的聚类359
8.2.1 模糊聚类360
8.2.2 使用混合模型的聚类362
8.2.3 自组织映射369
8.3 基于密度的聚类372
8.3.1 基于网格的聚类372
8.3.2 子空间聚类374
8.3.3 DENCLUE:基于密度聚类的一种基于核的方案377
8.4 基于图的聚类378
8.4.1 稀疏化379
8.4.2 最小生成树聚类380
8.4.3 OPOSSUM:使用METIS的稀疏相似度最优划分380
8.4.4 Chameleon:使用动态建模的层次聚类381
8.4.5 谱聚类384
8.4.6 共享最近邻相似度388
8.4.7 Jarvis-Patrick聚类算法390
8.4.8 SNN密度391
8.4.9 基于SNN密度的聚类392
8.5 可伸缩的聚类算法393
8.5.1 可伸缩:一般问题和方法393
8.5.2 BIRCH394
8.5.3 CURE395
8.6 使用哪种聚类算法397
文献注释399
参考文献400
习题403
第9章 异常检测406
9.1 异常检测问题的特性407
9.1.1 异常的定义407
9.1.2 数据的性质407
9.1.3 如何使用异常检测408
9.2 异常检测方法的特性408
9.3 统计方法409
9.3.1 使用参数模型410
9.3.2 使用非参数模型412
9.3.3 对正常类和异常类建模413
9.3.4 评估统计意义414
9.3.5 优点与缺点415
9.4 基于邻近度的方法415
9.4.1 基于距离的异常分数415
9.4.2 基于密度的异常分数416
9.4.3 基于相对密度的异常分数416
9.4.4 优点与缺点417
9.5 基于聚类的方法418
9.5.1 发现异常簇418
9.5.2 发现异常实例418
9.5.3 优点与缺点420
9.6 基于重构的方法420
9.7 单类分类422
9.7.1 核函数的使用422
9.7.2 原点技巧423
9.7.3 优点与缺点425
9.8 信息论方法425
9.9 异常检测评估426
文献注释428
参考文献429
习题433
第10章 避免错误发现436
10.1 预备知识:统计检验436
10.1.1 显著性检验436
10.1.2 假设检验440
10.1.3 多重假设检验443
10.1.4 统计检验中的陷阱448
10.2 对零分布和替代分布建模450
10.2.1 生成合成数据集450
10.2.2 随机化类标451
10.2.3 实例重采样451
10.2.4 对检验统计量的分布建模451
10.3 分类问题的统计检验452
10.3.1 评估分类性能452
10.3.2 以多重假设检验处理二分类问题453
10.3.3 模型选择中的多重假设检验453
10.4 关联分析的统计检验454
10.4.1 使用统计模型455
10.4.2 使用随机化方法457
10.5 聚类分析的统计检验458
10.5.1 为内部指标生成零分布459
10.5.2 为外部指标生成零分布459
10.5.3 富集460
10.6 异常检测的统计检验461
文献注释462
参考文献464
习题466
索引471
译者序
前言
第1章 绪论1
1.1 什么是数据挖掘2
1.2 数据挖掘要解决的问题3
1.3 数据挖掘的起源4
1.4 数据挖掘任务5
1.5 本书组织结构7
文献注释8
参考文献10
习题12
第2章 数据14
2.1 数据类型15
2.1.1 属性与度量16
2.1.2 数据集的类型19
2.2 数据质量24
2.2.1 测量和数据收集问题24
2.2.2 关于应用的问题27
2.3 数据预处理28
2.3.1 聚集28
2.3.2 抽样30
2.3.3 维归约31
2.3.4 特征子集选择32
2.3.5 特征创建34
2.3.6 离散化和二元化35
2.3.7 变量变换38
2.4 相似性和相异性的度量40
2.4.1 基础40
2.4.2 简单属性之间的相似度和相异度41
2.4.3 数据对象之间的相异度42
2.4.4 数据对象之间的相似度44
2.4.5 邻近度度量的例子44
2.4.6 互信息50
* 2.4.7 核函数51
* 2.4.8 Bregman散度53
2.4.9 邻近度计算问题54
2.4.10 选择正确的邻近度度量56
文献注释56
参考文献58
习题60
第3章 分类:基本概念和技术65
3.1 基本概念65
3.2 一般的分类框架67
3.3 决策树分类器69
3.3.1 构建决策树的基本算法70
3.3.2 表示属性测试条件的方法71
3.3.3 选择属性测试条件的方法73
3.3.4 决策树归纳算法79
3.3.5 示例:Web机器人检测79
3.3.6 决策树分类器的特征81
3.4 模型的过拟合85
3.5 模型选择90
3.5.1 验证集应用90
3.5.2 模型复杂度合并91
3.5.3 统计范围估计93
3.5.4 决策树的模型选择94
3.6 模型评估95
3.6.1 保持方法95
3.6.2 交叉验证96
3.7 超参数的使用97
3.7.1 超参数选择98
3.7.2 嵌套交叉验证98
3.8 模型选择和评估中的陷阱99
3.8.1 训练集和测试集之间的重叠99
3.8.2 使用验证错误率作为泛化错误率100
* 3.9 模型比较100
3.9.1 估计准确率的置信区间100
3.9.2 比较两个模型的性能101
文献注释102
参考文献105
习题108
第4章 分类:其他技术114
4.1 分类器的种类114
4.2 基于规则的分类器115
4.2.1 基于规则的分类器原理116
4.2.2 规则集的属性116
4.2.3 规则提取的直接方法117
4.2.4 规则提取的间接方法120
4.2.5 基于规则的分类器的特点121
4.3 最近邻分类器122
4.3.1 算法123
4.3.2 最近邻分类器的特点124
4.4 朴素贝叶斯分类器124
4.4.1 概率论基础125
4.4.2 朴素贝叶斯假设127
4.5 贝叶斯网络132
4.5.1 图表示132
4.5.2 推理与学习135
4.5.3 贝叶斯网络的特点139
4.6 logistic回归140
4.6.1 logistic回归用作广义线性模型141
4.6.2 学习模型参数141
4.6.3 logistic回归模型的特点142
4.7 人工神经网络143
4.7.1 感知机144
4.7.2 多层神经网络146
4.7.3 人工神经网络的特点150
4.8 深度学习151
4.8.1 使用协同损失函数151
4.8.2 使用响应激活函数153
4.8.3 正则化154
4.8.4 模型参数的初始化155
4.8.5 深度学习的特点157
4.9 支持向量机158
4.9.1 分离超平面的边缘158
4.9.2 线性SVM159
4.9.3 软边缘SVM162
4.9.4 非线性SVM165
4.9.5 SVM的特点167
4.10 组合方法168
4.10.1 组合方法的基本原理168
4.10.2 构建组合分类器的方法169
4.10.3 偏置方差分解170
4.10.4 装袋171
4.10.5 提升173
4.10.6 随机森林176
4.10.7 组合方法的实验比较177
4.11 类不平衡问题178
4.11.1 类不平衡的分类器构建179
4.11.2 带类不平衡的性能评估180
4.11.3 寻找最优的评分阈值183
4.11.4 综合评估性能183
4.12 多类问题188
文献注释189
参考文献193
习题198
第5章 关联分析:基本概念和算法205
5.1 预备知识205
5.2 频繁项集的产生207
5.2.1 先验原理209
5.2.2 Apriori算法的频繁项集产生210
5.2.3 候选项集的产生与剪枝212
5.2.4 支持度计数215
5.2.5 计算复杂度217
5.3 规则的产生219
5.3.1 基于置信度的剪枝219
5.3.2 Apriori算法中规则的产生219
5.3.3 示例:美国国会投票记录221
5.4 频繁项集的紧凑表示221
5.4.1 极大频繁项集221
5.4.2 闭项集223
* 5.5 其他产生频繁项集的方法225
* 5.6 FP增长算法228
5.6.1 FP树表示法228
5.6.2 FP增长算法的频繁项集产生229
5.7 关联模式的评估231
5.7.1 兴趣度的客观度量232
5.7.2 多个二元变量的度量239
5.7.3 辛普森悖论240
5.8 倾斜支持度分布的影响241
文献注释244
参考文献248
习题256
第6章 关联分析:高级概念263
6.1 处理分类属性263
6.2 处理连续属性264
6.2.1 基于离散化的方法265
6.2.2 基于统计学的方法267
6.2.3 非离散化方法268
6.3 处理概念分层269
6.4 序列模式270
6.4.1 预备知识270
6.4.2 序列模式发现272
* 6.4.3 时限约束275
* 6.4.4 可选计数方案278
6.5 子图模式279
6.5.1 预备知识280
6.5.2 频繁子图挖掘281
6.5.3 候选生成284
6.5.4 候选剪枝287
6.5.5 支持度计数287
* 6.6 非频繁模式287
6.6.1 负模式288
6.6.2 负相关模式288
6.6.3 非频繁模式、负模式和负相关模式比较289
6.6.4 挖掘有趣的非频繁模式的技术290
6.6.5 基于挖掘负模式的技术290
6.6.6 基于支持度期望的技术292
文献注释294
参考文献295
习题297
第7章 聚类分析:基本概念和算法306
7.1 概述307
7.1.1 什么是聚类分析307
7.1.2 聚类的不同类型308
7.1.3 簇的不同类型309
7.2 K均值310
7.2.1 K均值算法311
7.2.2 K均值:附加的问题316
7.2.3 二分K均值317
7.2.4 K均值和不同的簇类型318
7.2.5 优点与缺点319
7.2.6 K均值作为优化问题320
7.3 凝聚层次聚类321
7.3.1 基本凝聚层次聚类算法322
7.3.2 特殊技术323
7.3.3 簇邻近度的Lance-Williams公式326
7.3.4 层次聚类的主要问题327
7.3.5 离群点328
7.3.6 优点与缺点328
7.4 DBSCAN328
7.4.1 传统的密度:基于中心的方法328
7.4.2 DBSCAN算法329
7.4.3 优点与缺点331
7.5 簇评估331
7.5.1 概述332
7.5.2 无监督簇评估:使用凝聚度和分离度333
7.5.3 无监督簇评估:使用邻近度矩阵336
7.5.4 层次聚类的无监督评估339
7.5.5 确定正确的簇个数339
7.5.6 聚类趋势340
7.5.7 簇有效性的监督度量341
7.5.8 评估簇有效性度量的显著性344
7.5.9 簇有效性度量的选择345
文献注释345
参考文献347
习题349
第8章 聚类分析:其他问题与算法356
8.1 数据、簇和聚类算法的特性356
8.1.1 示例:比较K均值和DBSCAN356
8.1.2 数据特性357
8.1.3 簇特性358
8.1.4 聚类算法的一般特性359
8.2 基于原型的聚类359
8.2.1 模糊聚类360
8.2.2 使用混合模型的聚类362
8.2.3 自组织映射369
8.3 基于密度的聚类372
8.3.1 基于网格的聚类372
8.3.2 子空间聚类374
8.3.3 DENCLUE:基于密度聚类的一种基于核的方案377
8.4 基于图的聚类378
8.4.1 稀疏化379
8.4.2 最小生成树聚类380
8.4.3 OPOSSUM:使用METIS的稀疏相似度最优划分380
8.4.4 Chameleon:使用动态建模的层次聚类381
8.4.5 谱聚类384
8.4.6 共享最近邻相似度388
8.4.7 Jarvis-Patrick聚类算法390
8.4.8 SNN密度391
8.4.9 基于SNN密度的聚类392
8.5 可伸缩的聚类算法393
8.5.1 可伸缩:一般问题和方法393
8.5.2 BIRCH394
8.5.3 CURE395
8.6 使用哪种聚类算法397
文献注释399
参考文献400
习题403
第9章 异常检测406
9.1 异常检测问题的特性407
9.1.1 异常的定义407
9.1.2 数据的性质407
9.1.3 如何使用异常检测408
9.2 异常检测方法的特性408
9.3 统计方法409
9.3.1 使用参数模型410
9.3.2 使用非参数模型412
9.3.3 对正常类和异常类建模413
9.3.4 评估统计意义414
9.3.5 优点与缺点415
9.4 基于邻近度的方法415
9.4.1 基于距离的异常分数415
9.4.2 基于密度的异常分数416
9.4.3 基于相对密度的异常分数416
9.4.4 优点与缺点417
9.5 基于聚类的方法418
9.5.1 发现异常簇418
9.5.2 发现异常实例418
9.5.3 优点与缺点420
9.6 基于重构的方法420
9.7 单类分类422
9.7.1 核函数的使用422
9.7.2 原点技巧423
9.7.3 优点与缺点425
9.8 信息论方法425
9.9 异常检测评估426
文献注释428
参考文献429
习题433
第10章 避免错误发现436
10.1 预备知识:统计检验436
10.1.1 显著性检验436
10.1.2 假设检验440
10.1.3 多重假设检验443
10.1.4 统计检验中的陷阱448
10.2 对零分布和替代分布建模450
10.2.1 生成合成数据集450
10.2.2 随机化类标451
10.2.3 实例重采样451
10.2.4 对检验统计量的分布建模451
10.3 分类问题的统计检验452
10.3.1 评估分类性能452
10.3.2 以多重假设检验处理二分类问题453
10.3.3 模型选择中的多重假设检验453
10.4 关联分析的统计检验454
10.4.1 使用统计模型455
10.4.2 使用随机化方法457
10.5 聚类分析的统计检验458
10.5.1 为内部指标生成零分布459
10.5.2 为外部指标生成零分布459
10.5.3 富集460
10.6 异常检测的统计检验461
文献注释462
参考文献464
习题466
索引471
猜您喜欢