书籍详情

数据挖掘方法与应用

数据挖掘方法与应用

作者:徐雪琪 著

出版社:清华大学出版社

出版时间:2020-07-01

ISBN:9787302550624

定价:¥49.00

购买这本书可以去
内容简介
  《数据挖掘方法与应用》以应用为导向介绍数据挖掘的相关工具、理论和方法,包括数据挖掘概述、数据挖掘工具、数据与数据平台、数据预处理、关联分析、决策树、贝叶斯分类和神经网络。通过循序渐进地讲解数据挖掘可使用的工具、数据存储及分析环境、原始数据可能存在的问题及相应的预处理方法、数据挖掘经典算法等相关知识,使读者对数据挖掘有整体的认识和了解。此外,《数据挖掘方法与应用》以解决问题为目的,结合实例阐述了使用IBM SPSS Modeler和R软件进行数据挖掘的方法与步骤,便于读者更好地理解和掌握。 《数据挖掘方法与应用》可作为统计学、大数据等相关专业高年级本科生及硕士研究生数据挖掘课程的教材,也可作为其他数据挖掘爱好者的参考用书。
作者简介
暂缺《数据挖掘方法与应用》作者简介
目录
目 录


第1章 数据挖掘概述 1
1.1 数据挖掘的产生与发展 1
1.1.1 数据挖掘概念的提出 2
1.1.2 数据挖掘系统的发展 3
1.1.3 当前热点和未来趋势 5
1.2 数据挖掘过程 10
1.2.1 Fayyad过程模型 10
1.2.2 CRISP-DM过程模型 11
1.3 数据挖掘功能与使用技术 21
1.3.1 数据挖掘功能 21
1.3.2 数据挖掘使用技术 22
1.4 数据挖掘应用 26
1.4.1 金融领域的数据挖掘 26
1.4.2 电信领域的数据挖掘 26
1.4.3 零售与电子商务领域的数据挖掘 27
1.4.4 政府政务领域的数据挖掘 27
1.4.5 医疗领域的数据挖掘 28
1.4.6 科学领域的数据挖掘 28
1.5 练习与拓展 28
第2章 数据挖掘工具 30
2.1 Weka 30
2.1.1 Weka简述 30
2.1.2 Weka运行界面 31
2.2 IBM SPSS Modeler 34
2.2.1 IBM SPSS Modeler简述 34
2.2.2 IBM SPSS Modeler主界面及功能 35
2.3 R语言 41
2.3.1 R语言简述 41
2.3.2 RStudio 42
2.3.3 R语言与数据挖掘 42
2.4 Python语言 45
2.4.1 Python语言简述 45
2.4.2 Python与数据分析 46
2.4.3 Anaconda 46
2.5 练习与拓展 50
第3章 数据与数据平台 51
3.1 数据类型 51
3.1.1 数据形态与数据类型 51
3.1.2 数据环境与数据类型 54
3.2 关系型数据库 55
3.2.1 关系型数据库概述 55
3.2.2 关系型数据库管理系统 56
3.3 NoSQL数据库 57
3.3.1 键值数据库 57
3.3.2 文档数据库 58
3.3.3 列族数据库 60
3.3.4 图数据库 61
3.4 数据仓库与大数据平台 63
3.4.1 数据仓库 63
3.4.2 大数据平台 68
3.5 练习与拓展 74
第4章 数据预处理 75
4.1 数据预处理概述 75
4.1.1 原始数据中存在的问题 75
4.1.2 数据预处理的主要任务 77
4.2 数据清洗 77
4.2.1 缺失数据处理 77
4.2.2 异常数据处理 78
4.3 数据集成 80
4.3.1 模式匹配及数值一致化 80
4.3.2 删除冗余数据 81
4.4 数据变换 82
4.4.1 定性数据数值化 82
4.4.2 定量数据离散化和规范化 83
4.4.3 不平衡数据处理 84
4.5 数据归约 85
4.5.1 属性的归约 85
4.5.2 记录的归约 87
4.5.3 数值的归约 88
4.6 练习与拓展 89
第5章 关联分析 90
5.1 关联分析概述 90
5.1.1 关联分析基本概念 91
5.1.2 关联规则挖掘的基本过程 93
5.2 Apriori算法 94
5.2.1 Apriori性质 94
5.2.2 Apriori算法的频繁项集产生 95
5.3 强关联规则的悖论 99
5.3.1 强关联规则不一定是有趣的规则 99
5.3.2 基于提升度过滤无趣的强关联规则 100
5.3.3 基于支持度、置信度及提升度的关联规则发现 100
5.4 基于IBM SPSS Modeler的应用 103
5.4.1 事实表数据的应用示例 103
5.4.2 事务表数据的应用示例 113
5.5 基于R语言的应用 123
5.5.1 数据初探 123
5.5.2 可视化交易数据 125
5.5.3 挖掘关联规则 127
5.5.4 可视化关联规则 130
5.6 练习与拓展 134
第6章 决策树 136
6.1 决策树概述 136
6.1.1 决策树分析相关概念 137
6.1.2 决策树分析核心问题 138
6.2 ID3算法 138
6.2.1 信息论的基本概念 138
6.2.2 ID3算法基本原理 139
6.2.3 使用ID3算法建立决策树 141
6.3 C5.0算法 143
6.3.1 C5.0算法的决策树生长 144
6.3.2 C5.0算法的决策树修剪 149
6.4 基于IBM SPSS Modeler的应用 151
6.4.1 数据读取与审核 152
6.4.2 探索性分析 153
6.4.3 数据预处理 158
6.4.4 决策树模型构建与评估:基于C5.0算法 163
6.4.5 预测结果 170
6.5 基于R语言的应用 171
6.5.1 数据探索 172
6.5.2 数据分区 177
6.5.3 模型训练与评估 178
6.5.4 使用boosting和代价矩阵调整模型 181
6.6 练习与拓展 184
第7章 贝叶斯分类 185
7.1 贝叶斯分类概述 185
7.1.1 贝叶斯定理 186
7.1.2 贝叶斯信念网络 186
7.2 朴素贝叶斯分类 188
7.2.1 朴素贝叶斯分类原理 188
7.2.2 朴素贝叶斯分类计算示例 191
7.2.3 零概率问题:拉普拉斯平滑 193
7.3 TAN贝叶斯分类 194
7.3.1 TAN贝叶斯网络结构 194
7.3.2 TAN贝叶斯分类过程 195
7.4 基于IBM SPSS Modeler的应用 196
7.4.1 数据读取与审核 198
7.4.2 探索性分析 199
7.4.3 数据预处理 208
7.4.4 TAN贝叶斯分类模型构建与评估 210
7.5 基于R语言的应用 214
7.5.1 数据探索 214
7.5.2 文本数据预处理 215
7.5.3 划分数据集 219
7.5.4 词云分析 221
7.5.5 模型训练与评估 223
7.6 练习与拓展 225
第8章 神经网络 226
8.1 神经网络概述 226
8.1.1 生物神经元与人工神经元 226
8.1.2 激活函数 227
8.1.3 神经网络的拓扑结构 230
8.2 BP神经网络 232
8.2.1 BP神经网络的学习过程 232
8.2.2 BP算法描述 237
8.2.3 前馈神经网络计算示例 238
8.3 卷积神经网络 240
8.3.1 卷积层 240
8.3.2 激活层 243
8.3.3 池化层 244
8.3.4 全连接层 244
8.4 基于IBM SPSS Modeler的应用 245
8.4.1 数据读取 246
8.4.2 “数据审核”节点预处理 247
8.4.3 探索性分析 250
8.4.4 分区与平衡 251
8.4.5 模型构建与评价 252
8.5 基于R语言的应用 260
8.5.1 数据初探 260
8.5.2 数据转换与分区 263
8.5.3 模型构建与评价 263
8.6 练习与拓展 268
参考文献 270
猜您喜欢

读书导航