书籍详情
数据挖掘:实用机器学习工具与技术(原书第4版)
作者:[新西兰] 伊恩 H.威腾(Ian H.Witten) ... 著;李川 郭立坤 彭京 蔡国强 任艳等译 译
出版社:机械工业出版社
出版时间:2018-03-01
ISBN:9787111589167
定价:¥99.00
购买这本书可以去
内容简介
本书是数据挖掘和机器学习领域的经典畅销教材,被国内外众多名校选用。第4版新增了关于深度学习和概率方法的重要章节,同时,备受欢迎的机器学习软件Weka也再度升级。书中全面覆盖了该领域的实用技术,致力于帮助读者理解不同技术的工作方式和应用方式,从而学会在工程实践和商业项目中解决真实问题。本书适合作为高等院校相关课程的教材,同时也适合业内技术人员阅读参考。
作者简介
作者:(新西兰)伊恩H.威腾 作者:埃贝·弗兰克 作者:马克A.霍尔 作者:(加)克里斯多夫J.帕尔 译者:李川 译者:郭立坤 译者:彭京 译者:蔡国强 译者:任艳伊恩 H.威腾(Ian H.Wittetl)新西兰怀卡托大学计算机科学系教授,ACM会士,新西兰皇家学会会士,曾荣获2004年国际信息处理研究协会(1FIP)颁发的Namur奖。埃贝·弗兰克(Eibe Frarlk)新西兰怀卡托大学计算机科学系副教授,因Weka软件的成功而与Witten及Hall一道获得了2005年ACM SIGKDD服务奖。马克 A.霍尔(Mark A.Hall)新西兰怀卡托大学名誉副研究员。Weka软件的核心开发者。克里斯多夫 J.帕尔(Christopher J.Pal)蒙特利尔工程学院副教授。研究方向包括人工智能、计算机视觉和模式识别等。
目录
目 录
Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition
译者序
前言
致谢
第一部分 数据挖掘基础
第1章 绪论 2
1.1 数据挖掘和机器学习 2
1.1.1 描述结构模式 3
1.1.2 机器学习 5
1.1.3 数据挖掘 6
1.2 简单的例子:天气问题和其他问题 6
1.2.1 天气问题 6
1.2.2 隐形眼镜:一个理想化的问题 8
1.2.3 鸢尾花:一个经典的数值型数据集 9
1.2.4 CPU性能:引入数值预测 10
1.2.5 劳资协商:一个更真实的例子 11
1.2.6 大豆分类:一个经典的机器学习的成功例子 12
1.3 应用领域 14
1.3.1 Web挖掘 14
1.3.2 包含判断的决策 15
1.3.3 图像筛选 15
1.3.4 负载预测 16
1.3.5 诊断 17
1.3.6 市场和销售 17
1.3.7 其他应用 18
1.4 数据挖掘过程 19
1.5 机器学习和统计学 20
1.6 将泛化看作搜索 21
1.6.1 枚举概念空间 22
1.6.2 偏差 22
1.7 数据挖掘和道德问题 24
1.7.1 再识别 24
1.7.2 使用个人信息 25
1.7.3 其他问题 26
1.8 拓展阅读及参考文献 26
第2章 输入:概念、实例和属性 29
2.1 概念 29
2.2 实例 31
2.2.1 关系 31
2.2.2 其他实例类型 34
2.3 属性 35
2.4 输入准备 36
2.4.1 数据收集 37
2.4.2 ARFF格式 37
2.4.3 稀疏数据 39
2.4.4 属性类型 40
2.4.5 缺失值 41
2.4.6 不正确的值 42
2.4.7 非均衡数据 42
2.4.8 了解数据 43
2.5 拓展阅读及参考文献 43
第3章 输出:知识表达 44
3.1 表 44
3.2 线性模型 44
3.3 树 46
3.4 规则 49
3.4.1 分类规则 49
3.4.2 关联规则 52
3.4.3 包含例外的规则 53
3.4.4 表达能力更强的规则 54
3.5 基于实例的表达 56
3.6 聚类 58
3.7 拓展阅读及参考文献 59
第4章 算法:基本方法 60
4.1 推断基本规则 60
4.2 简单概率模型 63
4.2.1 缺失值和数值属性 65
4.2.2 用于文档分类的朴素贝叶斯 67
4.2.3 讨论 68
4.3 分治法:创建决策树 69
4.3.1 计算信息量 71
4.3.2 高度分支属性 73
4.4 覆盖算法:建立规则 74
4.4.1 规则与树 75
4.4.2 一个简单的覆盖算法 76
4.4.3 规则与决策列表 79
4.5 关联规则挖掘 79
4.5.1 项集 80
4.5.2 关联规则 81
4.5.3 高效地生成规则 84
4.6 线性模型 86
4.6.1 数值预测:线性回归 86
4.6.2 线性分类:logistic回归 87
4.6.3 使用感知机的线性分类 89
4.6.4 使用Winnow的线性分类 90
4.7 基于实例的学习 91
4.7.1 距离函数 92
4.7.2 高效寻找最近邻 92
4.7.3 讨论 96
4.8 聚类 96
4.8.1 基于距离的迭代聚类 97
4.8.2 更快的距离计算 98
4.8.3 选择簇的个数 99
4.8.4 层次聚类 100
4.8.5 层次聚类示例 101
4.8.6 增量聚类 102
4.8.7 分类效用 104
4.8.8 讨论 106
4.9 多实例学习 107
4.9.1 聚集输入 107
4.9.2 聚集输出 107
4.10 拓展阅读及参考文献 108
4.11 Weka实现 109
第5章 可信度:评估学习结果 111
5.1 训练和测试 111
5.2 预测性能 113
5.3 交叉验证 115
5.4 其他评估方法 116
5.4.1 留一交叉验证法 116
5.4.2 自助法 116
5.5 超参数选择 117
5.6 数据挖掘方法比较 118
5.7 预测概率 121
5.7.1 二次损失函数 121
5.7.2 信息损失函数 122
5.7.3 讨论 123
5.8 计算成本 123
5.8.1 成本敏感分类 125
5.8.2 成本敏感学习 126
5.8.3 提升图 126
5.8.4 ROC曲线 129
5.8.5 召回率–精确率曲线 130
5.8.6 讨论 131
5.8.7 成本曲线 132
5.9 评估数值预测 134
5.10 最小描述长度原理 136
5.11 将MDL原理应用于聚类 138
5.12 使用验证集进行模型选择 138
5.13 拓展阅读及参考文献 139
第二部分 高级机器学习方案
第6章 树和规则 144
6.1 决策树 144
6.1.1 数值属性 144
6.1.2 缺失值 145
6.1.3 剪枝 146
6.1.4 估计误差率 147
6.1.5 决策树归纳法的复杂度 149
6.1.6 从决策树到规则 150
6.1.7 C4.5:选择和选项 150
6.1.8 成本–复杂度剪枝 151
6.1.9 讨论 151
6.2 分类规则 152
6.2.1 选择测试的标准 152
6.2.2 缺失值和数值属性 153
6.2.3 生成好的规则 153
6.2.4 使用全局优化 155
6.2.5 从局部决策树中获得规则 157
6.2.6 包含例外的规则 158
6.2.7 讨论 160
6.3 关联规则 161
6.3.1 建立频繁模式树 161
6.3.2 寻找大项集 163
6.3.3 讨论 166
6.4 Weka 实现 167
第7章 基于实例的学习和线性模型的扩展 168
7.1 基于实例的学习 168
7.1.1 减少样本集的数量 168
7.1.2 对噪声样本集剪枝 169
7.1.3 属性加权 170
7.1.4 泛化样本集 170
7.1.5 用于泛化样本集的距离函数 171
7.1.6 泛化的距离函数 172
7.1.7 讨论 172
7.2 扩展线性模型 173
7.2.1 最大间隔超平面 173
7.2.2 非线性类边界
Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition
译者序
前言
致谢
第一部分 数据挖掘基础
第1章 绪论 2
1.1 数据挖掘和机器学习 2
1.1.1 描述结构模式 3
1.1.2 机器学习 5
1.1.3 数据挖掘 6
1.2 简单的例子:天气问题和其他问题 6
1.2.1 天气问题 6
1.2.2 隐形眼镜:一个理想化的问题 8
1.2.3 鸢尾花:一个经典的数值型数据集 9
1.2.4 CPU性能:引入数值预测 10
1.2.5 劳资协商:一个更真实的例子 11
1.2.6 大豆分类:一个经典的机器学习的成功例子 12
1.3 应用领域 14
1.3.1 Web挖掘 14
1.3.2 包含判断的决策 15
1.3.3 图像筛选 15
1.3.4 负载预测 16
1.3.5 诊断 17
1.3.6 市场和销售 17
1.3.7 其他应用 18
1.4 数据挖掘过程 19
1.5 机器学习和统计学 20
1.6 将泛化看作搜索 21
1.6.1 枚举概念空间 22
1.6.2 偏差 22
1.7 数据挖掘和道德问题 24
1.7.1 再识别 24
1.7.2 使用个人信息 25
1.7.3 其他问题 26
1.8 拓展阅读及参考文献 26
第2章 输入:概念、实例和属性 29
2.1 概念 29
2.2 实例 31
2.2.1 关系 31
2.2.2 其他实例类型 34
2.3 属性 35
2.4 输入准备 36
2.4.1 数据收集 37
2.4.2 ARFF格式 37
2.4.3 稀疏数据 39
2.4.4 属性类型 40
2.4.5 缺失值 41
2.4.6 不正确的值 42
2.4.7 非均衡数据 42
2.4.8 了解数据 43
2.5 拓展阅读及参考文献 43
第3章 输出:知识表达 44
3.1 表 44
3.2 线性模型 44
3.3 树 46
3.4 规则 49
3.4.1 分类规则 49
3.4.2 关联规则 52
3.4.3 包含例外的规则 53
3.4.4 表达能力更强的规则 54
3.5 基于实例的表达 56
3.6 聚类 58
3.7 拓展阅读及参考文献 59
第4章 算法:基本方法 60
4.1 推断基本规则 60
4.2 简单概率模型 63
4.2.1 缺失值和数值属性 65
4.2.2 用于文档分类的朴素贝叶斯 67
4.2.3 讨论 68
4.3 分治法:创建决策树 69
4.3.1 计算信息量 71
4.3.2 高度分支属性 73
4.4 覆盖算法:建立规则 74
4.4.1 规则与树 75
4.4.2 一个简单的覆盖算法 76
4.4.3 规则与决策列表 79
4.5 关联规则挖掘 79
4.5.1 项集 80
4.5.2 关联规则 81
4.5.3 高效地生成规则 84
4.6 线性模型 86
4.6.1 数值预测:线性回归 86
4.6.2 线性分类:logistic回归 87
4.6.3 使用感知机的线性分类 89
4.6.4 使用Winnow的线性分类 90
4.7 基于实例的学习 91
4.7.1 距离函数 92
4.7.2 高效寻找最近邻 92
4.7.3 讨论 96
4.8 聚类 96
4.8.1 基于距离的迭代聚类 97
4.8.2 更快的距离计算 98
4.8.3 选择簇的个数 99
4.8.4 层次聚类 100
4.8.5 层次聚类示例 101
4.8.6 增量聚类 102
4.8.7 分类效用 104
4.8.8 讨论 106
4.9 多实例学习 107
4.9.1 聚集输入 107
4.9.2 聚集输出 107
4.10 拓展阅读及参考文献 108
4.11 Weka实现 109
第5章 可信度:评估学习结果 111
5.1 训练和测试 111
5.2 预测性能 113
5.3 交叉验证 115
5.4 其他评估方法 116
5.4.1 留一交叉验证法 116
5.4.2 自助法 116
5.5 超参数选择 117
5.6 数据挖掘方法比较 118
5.7 预测概率 121
5.7.1 二次损失函数 121
5.7.2 信息损失函数 122
5.7.3 讨论 123
5.8 计算成本 123
5.8.1 成本敏感分类 125
5.8.2 成本敏感学习 126
5.8.3 提升图 126
5.8.4 ROC曲线 129
5.8.5 召回率–精确率曲线 130
5.8.6 讨论 131
5.8.7 成本曲线 132
5.9 评估数值预测 134
5.10 最小描述长度原理 136
5.11 将MDL原理应用于聚类 138
5.12 使用验证集进行模型选择 138
5.13 拓展阅读及参考文献 139
第二部分 高级机器学习方案
第6章 树和规则 144
6.1 决策树 144
6.1.1 数值属性 144
6.1.2 缺失值 145
6.1.3 剪枝 146
6.1.4 估计误差率 147
6.1.5 决策树归纳法的复杂度 149
6.1.6 从决策树到规则 150
6.1.7 C4.5:选择和选项 150
6.1.8 成本–复杂度剪枝 151
6.1.9 讨论 151
6.2 分类规则 152
6.2.1 选择测试的标准 152
6.2.2 缺失值和数值属性 153
6.2.3 生成好的规则 153
6.2.4 使用全局优化 155
6.2.5 从局部决策树中获得规则 157
6.2.6 包含例外的规则 158
6.2.7 讨论 160
6.3 关联规则 161
6.3.1 建立频繁模式树 161
6.3.2 寻找大项集 163
6.3.3 讨论 166
6.4 Weka 实现 167
第7章 基于实例的学习和线性模型的扩展 168
7.1 基于实例的学习 168
7.1.1 减少样本集的数量 168
7.1.2 对噪声样本集剪枝 169
7.1.3 属性加权 170
7.1.4 泛化样本集 170
7.1.5 用于泛化样本集的距离函数 171
7.1.6 泛化的距离函数 172
7.1.7 讨论 172
7.2 扩展线性模型 173
7.2.1 最大间隔超平面 173
7.2.2 非线性类边界
猜您喜欢