数据挖掘基础(第2版)
作者:刘鹏,陶建辉
出版社:清华大学出版社
出版时间:2023-06-01
ISBN:9787302634492
定价:¥49.00
第1 章 数据挖掘的概念
1.1 数据挖掘概述 1
1.1.1 什么是数据挖掘 2
1.1.2 数据挖掘常用算法概述 2
1.1.3 数据挖掘常用工具概述 3
1.2 数据探索 5
1.2.1 数据概述 5
1.2.2 数据质量 6
1.2.3 数据预处理 8
1.3 数据挖掘的应用 10
1.3.1 数据挖掘的现状及发展趋势 10
1.3.2 数据挖掘需要解决的问题 10
1.3.3 数据挖掘的应用场景 12
1.4 作业与练习 15
参考文献 15
第2 章 分类
2.1 分类概述 16
2.1.1 分类的基本概念 16
2.1.2 解决分类问题的一般方法 16
2.1.3 分类模型的过拟合 18
2.2 决策树 18
2.2.1 决策树的工作原理及构建 18
2.2.2 决策树归纳算法 19
2.2.3 处理决策树中的过拟合 21
2.3 贝叶斯决策与分类器 21
2.3.1 规则分类器 21
2.3.2 贝叶斯定理在分类中的应用 22
2.3.3 朴素贝叶斯在分类中的应用 23
2.4 支持向量机 24
2.4.1 最大边缘超平面 24
VIII 数据挖掘基础(第2 版)
2.4.2 线性支持向量机SVM 25
2.4.3 非线性支持向量机SVM 27
2.5 分类在实际场景中的应用案例 31
2.5.1 在关键字检索中的应用 31
2.5.2 在甄别欺诈行为中的应用 32
2.5.3 在在线广告推荐中的应用 32
2.5.4 在Web 机器人检测中的应用 34
2.6 作业与练习 35
参考文献 35
第3 章 聚类
3.1 聚类概述 36
3.1.1 聚类的基本概念 36
3.1.2 聚类的评价标准 37
3.1.3 聚类算法的选择 39
3.2 聚类算法 39
3.2.1 层次聚类算法 39
3.2.2 划分聚类算法 40
3.2.3 基于密度的聚类算法 41
3.2.4 基于网格的聚类算法 42
3.2.5 基于模型的聚类算法 43
3.2.6 使用Spark 实现K-means 的训练 43
3.3 聚合分析方法 45
3.3.1 欧氏距离 45
3.3.2 聚合过程 45
3.3.3 聚类树 47
3.3.4 聚合分析方法应用实例 48
3.4 聚类在实际场景中的应用案例 49
3.4.1 在电网中的应用 49
3.4.2 在电力用户用电行为分析中的应用 49
3.4.3 在电商中的应用 50
3.4.4 聚类实现的例子 50
3.5 作业与练习 56
参考文献 56
第4 章 关联规则
4.1 关联规则概述 57
4.1.1 经典案例导入 57
4.1.2 关联规则的基本概念和定义 58
4.1.3 关联规则的分类 60
4.2 关联规则的挖掘过程 61
4.2.1 知识回顾 61
4.2.2 频繁项集产生 62
4.2.3 强关联规则 63
4.2.4 关联规则评价标准 64
4.3 关联规则的Apriori 算法 65
4.3.1 知识回顾 65
4.3.2 Apriori 算法的核心思想 66
4.3.3 Apriori 算法描述 66
4.3.4 Apriori 算法评价 68
4.3.5 Apriori 算法改进 68
4.4 关联规则的FP-growth 算法 69
4.4.1 构建FP 树 70
4.4.2 从FP 树中挖掘频繁项集 72
4.4.3 FP-growth 算法与Apriori 算法的区别 73
4.4.4 使用Spark 实现FP-growth 算法的训练 73
4.5 实战:关联规则挖掘实例 74
4.5.1 关联规则挖掘技术在国内外的应用现状 74
4.5.2 关联规则应用实例 75
4.5.3 关联规则在大型超市中应用的步骤 77
4.6 作业与练习 79
参考文献 79
第5 章 综合实战—日志的挖掘与应用
5.1 日志的概念 80
5.1.1 日志是什么 80
5.1.2 日志能做什么 81
5.2 日志处理 82
5.2.1 产生日志 82
5.2.2 传输日志 83
5.2.3 存储日志 85
5.2.4 分析日志 88
5.2.5 日志规范与标准 97
5.3 R 语言与日志分析工具 99
5.3.1 R 语言 99
5.3.2 日志分析工具 103
5.3.3 日志分析系统的规划建设 106
5.4 日志挖掘应用 110
5.4.1 安全运维 110
5.4.2 系统健康分析 110
5.4.3 用户行为分析 111
5.4.4 业务分析设计 112
5.5 日志分析挖掘实例 113
5.6 作业与练习 115
参考文献 115
第6 章 数据挖掘应用案例
6.1 电力行业采用聚类方法进行主变油温分析 116
6.1.1 需求背景及采用的大数据分析方法 116
6.1.2 大数据分析方法的实现过程 117
6.1.3 大数据分析方法的实现结果 119
6.2 银行信贷评价 119
6.2.1 简介 119
6.2.2 神经网络模型 120
6.2.3 实证检验 120
6.3 指数预测 121
6.3.1 金融时间序列概况 121
6.3.2 小波消噪 122
6.3.3 向量机 123
6.3.4 指数预测 123
6.4 客户分群的精准智能营销 124
6.4.1 挖掘目标 124
6.4.2 分析方法和过程 124
6.4.3 建模仿真 128
6.5 使用WEKA 进行房屋定价 129
6.6 作业与练习 133
参考文献 133
附录A