书籍详情
数据挖掘原理与算法(高等学校教材)
作者:毛国君、段立娟、王实、石云
出版社:清华大学出版社
出版时间:2003-08-01
ISBN:9787302106319
定价:¥28.00
购买这本书可以去
内容简介
本书是一本全面介绍数据挖掘和知识发现技术的专业书籍。系统化地阐述了数据挖掘和知识发现技术的产生、发展、应用和相关概念、原理、算法。对数据挖掘中的主要技术分支,包括关联规则、分类、聚类、序列、空间以及Web挖掘等进行了理论剖析和算法描述。本书的许多工作是作者们在攻读博士学位期间的工作总结,一方面,对于相关概念和技术的阐述尽量先从理论分析入手,在此基础上进行技术归纳。另一方面,为了保证技术的系统性,所有的挖掘模型和算法描述都在统一的技术归纳框架下进行。同时,为了避免抽象算法描述给读者带来的理解困难,本书的所有典型算法都通过具体跟踪执行实例来进一步说明。本书共分8章,各章相对独立成篇,以利于读者选择性学习。在每章后面都设置专门一节来对本章内容和文献引用情况进行归纳,它不仅可以帮助读者对相关内容进行整理,而且也起到对本内容相关文献的注释性索引功能。第1章是绪论,系统地介绍了数据挖掘产生的商业和技术背景,从不同侧面剖析了数据挖掘的概念和应用价值;第2章给出了知识发现的过程分析和应用体系结构设计;第3章对关联规则挖掘的原理和算法进行全面阐述;第4章给出分类的主要理论和算法描述;第5章讨论聚类的常用技术和算法;第6章对时间序列分析技术和序列挖掘算法进行论述;第7章系统地介绍了Web挖掘的主要研究领域和相关技术及算法;第8章是对空间数据挖掘技术和算法的分析和讲述。本书可作为计算机专业研究生或高年级本科生教材,也可以作为从事计算机研究和开发人员的参考资料。作为教材,教师可以根据课时安排进行选择性教学。对于研究人员,本书是一本高参考价值的专业书籍。对于软件技术人员,可以把它当作提高用书或参考资料,一些算法可以通过改造用于实际的应用系统中。
作者简介
暂缺《数据挖掘原理与算法(高等学校教材)》作者简介
目录
第1章 绪论 1
1.1 数据挖掘技术的产生与发展 1
1.1.1 数据挖掘技术的商业需求分析 1
1.1.2 数据挖掘产生的技术背景分析 3
1.2 数据挖掘研究的发展趋势 4
1.3 数据挖掘的概念 6
1.3.1 从商业角度看数据挖掘技术 7
1.3.2 数据挖掘的技术含义 7
1.3.3 数据挖掘研究的理论基础 8
1.4 数据挖掘技术的分类问题 10
1.5 数据挖掘常用的知识表示模式与方法 11
1.5.1 广义知识挖掘 11
1.5.2 关联知识挖掘 13
1.5.3 类知识挖掘 14
1.5.4 预测型知识挖掘 19
1.5.5 特异型知识挖掘 20
1.6 不同数据存储形式下的数据挖掘问题 21
1.6.1 事务数据库中的数据挖掘 21
1.6.2 关系型数据库中的数据挖掘 21
1.6.3 数据仓库中的数据挖掘 23
1.6.4 在关系模型基础上发展的新型数据库中的数据挖掘 23
1.6.5 面向应用的新型数据源中的数据挖掘 24
1.6.6 Web数据源中的数据挖掘 24
1.7 粗糙集方法及其在数据挖掘中的应用 26
1.7.1 粗糙集的一些重要概念 26
1.7.2 粗糙集应用举例 27
1.7.3 粗糙集方法在KDD中的应用范围 29
1.8 数据挖掘的应用分析 29
1.8.1 数据挖掘与CRM 29
1.8.2 数据挖掘应用的成功案例分析 30
1.9 本章小结和文献注释 32
第2章 知识发现过程与应用结构 37
2.1 知识发现的基本过程 37
2.1.1 数据抽取与集成 38
2.1.2 数据清洗与预处理 39
2.1.3 数据的选择与整理 39
2.1.4 数据挖掘 40
2.1.5 模式评估 40
2.2 数据库中的知识发现处理过程模型 41
2.2.1 阶梯处理过程模型 41
2.2.2 螺旋处理过程模型 42
2.2.3 以用户为中心的处理模型 43
2.2.4 联机KDD模型 45
2.2.5 支持多数据源多知识模式的KDD处理模型 46
2.3 知识发现软件或工具的发展 49
2.3.1 独立的知识发现软件 49
2.3.2 横向的知识发现工具 49
2.3.3 纵向的知识发现解决方案 50
2.3.4 KDD系统介绍 50
2.4 知识发现项目的过程化管理 53
2.5 数据挖掘语言介绍 54
2.5.1 数据挖掘语言的分类 54
2.5.2 数据挖掘查询语言 55
2.5.3 数据挖掘建模语言 56
2.5.4 通用数据挖掘语言 57
2.5.5 DMQL挖掘查询语言介绍 59
2.6 本章小结和文献注释 62
第3章 关联规则挖掘理论和算法 64
3.1 基本概念与解决方法 64
3.2 经典的频繁项目集生成算法分析 65
3.2.1 项目集格空间理论 65
3.2.2 经典的发现频繁项目集算法 66
3.2.3 关联规则生成算法 68
3.3 Apriori算法的性能瓶颈问题 70
3.4 Apriori的改进算法 71
3.4.1 基于数据分割(Partition)的方法 71
3.4.2 基于散列(Hash)的方法 72
3.4.3 基于采样(Sampling)的方法 73
3.5 项目集格空间理论的发展 74
3.5.1 Close算法 74
3.5.2 FP-tree算法 79
3.6 项目序列集格空间和它的操作 83
3.7 基于项目序列集操作的关联规则挖掘算法 85
3.7.1 关联规则挖掘空间 85
3.7.2 三个实用算子 85
3.7.3 最大频繁项目序列集的生成算法 87
3.7.4 ISS-DM算法执行示例 87
3.8 改善关联规则挖掘质量问题 88
3.8.1 用户主观层面 88
3.8.2 系统客观层面 89
3.9 约束数据挖掘问题 89
3.9.1 约束在数据挖掘中的作用 89
3.9.2 约束的类型 90
3.10 时态约束关联规则挖掘 93
3.11 关联规则挖掘中的一些更深入的问题 96
3.11.1 多层次关联规则挖掘 96
3.11.2 多维关联规则挖掘 97
3.11.3 数量关联规则挖掘 98
3.12 数量关联规则挖掘方法 99
3.12.1 数量关联规则挖掘问题 99
3.12.2 数量关联规则的分类 100
3.12.3 数量关联规则挖掘的一般步骤 101
3.12.4 数值属性离散化问题及算法 103
3.13 本章小结和文献注释 106
第4章 分类方法 109
4.1 分类的基本概念与步骤 109
4.2 基于距离的分类算法 111
4.3 决策树分类方法 114
4.3.1 决策树基本算法概述 115
4.3.2 ID3算法 117
4.3.3 C4.5算法 123
4.4 贝叶斯分类 127
4.4.1 贝叶斯定理 127
4.4.2 朴素贝叶斯分类 128
4.4.3 EM算法 130
4.5 规则归纳 134
4.5.1 AQ算法 135
4.5.2 CN2算法 138
4.5.3 FOIL算法 146
4.6 与分类有关的其他问题 150
4.6.1 分类数据预处理 150
4.6.2 分类器性能的表示与评估 151
4.7 本章小结和文献注释 153
第5章 聚类方法 156
5.1 概述 156
5.1.1 聚类分析在数据挖掘中的应用 157
5.1.2 聚类分析算法的概念与基本分类 158
5.1.3 距离与相似性的度量 160
5.2 划分聚类方法 163
5.2.1 k-平均算法 164
5.2.2 PAM 166
5.2.3 其他方法 170
5.3 层次聚类方法 170
5.3.1 AGNES算法 171
5.3.2 DIANA算法 172
5.3.3 其他聚类方法 174
5.4 密度聚类方法 175
5.5 其他聚类方法 178
5.5.1 STING算法 179
5.5.2 SOM算法 180
5.5.3 COBWEB算法 180
5.5.4 模糊聚类算法FCM 181
5.6 本章小结和文献注释 181
第6章 时间序列和序列模式挖掘 183
6.1 时间序列及其应用 183
6.2 时间序列预测的常用方法 184
6.2.1 确定性时间序列预测方法 184
6.2.2 随机时间序列预测方法 185
6.2.3 其他方法 185
6.3 基于ARMA模型的序列匹配方法 185
6.3.1 基本概念 185
6.3.2 利用基本概念建立模型 186
6.3.3 构造判别函数 187
6.4 基于离散富里叶变换的时间序列相似性查找 188
6.4.1 完全匹配 189
6.4.2 子序列匹配 190
6.5 基于规范变换的查找方法 192
6.5.1 基本概念 193
6.5.2 查找方法 193
6.6 序列挖掘 195
6.6.1 基本概念 196
6.6.2 数据源的形式 196
6.6.3 序列模式挖掘的一般步骤 198
6.7 AprioriAll 算法 199
6.8 AprioriSome 算法 202
6.9 GSP算法 205
6.10 本章小结和文献注释 207
第7章 Web挖掘技术 211
7.1 Web挖掘的意义 211
7.2 Web挖掘的分类 212
7.3 Web挖掘的含义 213
7.3.1 Web挖掘与信息检索 214
7.3.2 Web挖掘与信息抽取 214
7.4 Web挖掘的数据来源 215
7.4.1 服务器日志数据 215
7.4.2 在线市场数据 216
7.4.3 Web页面 216
7.4.4 Web页面超链接关系 216
7.4.5 其他信息 217
7.5 Web内容挖掘方法 217
7.5.1 爬虫与Web内容挖掘 218
7.5.2 虚拟的Web视图 218
7.5.3 个性化与Web内容挖掘 219
7.5.4 对Web页面内文本信息的挖掘 219
7.5.5 对Web页面内多媒体信息挖掘 220
7.5.6 Web页面内容的预处理 220
7.6 Web访问信息挖掘方法 221
7.6.1 Web访问信息挖掘的特点和意义 221
7.6.2 Web访问信息挖掘的意义 223
7.6.3 Web访问信息挖掘的数据源 224
7.6.4 Web访问信息挖掘的预处理 227
7.6.5 其他信息的预处理技术 231
7.6.6 在Web访问挖掘中的常用技术 233
7.6.7 Web访问信息挖掘的要素构成 234
7.6.8 利用Web访问信息挖掘实现用户建模 235
7.6.9 利用Web访问信息挖掘发现导航模式 237
7.6.10 利用Web访问信息挖掘改进访问效率 239
7.6.11 利用Web访问信息挖掘进行个性化服务 240
7.6.12 利用Web访问信息挖掘进行商业智能发现 242
7.6.13 利用Web访问信息挖掘进行用户移动模式发现 243
7.6.14 利用协作推荐的方法实现实时个性化推荐的例子 244
7.7 Web结构挖掘方法 247
7.7.1 页面重要性的评价方法 247
7.7.2 页面等级 248
7.7.3 权威页面和中心页面 248
7.7.4 Web站点结构的预处理 249
7.8 本章小结和文献注释 251
第8章 空间挖掘 256
8.1 引言 256
8.2 空间数据概要 257
8.2.1 空间数据的复杂性特征 257
8.2.2 空间查询问题 258
8.2.3 空间数据结构 259
8.2.4 专题地图 263
8.3 空间数据挖掘基础 264
8.4 空间统计学 265
8.5 泛化与特化 266
8.5.1 逐步求精 266
8.5.2 泛化 267
8.5.3 最临近 268
8.5.4 统计信息网格方法STING 268
8.6 空间规则 270
8.7 空间分类算法 272
8.7.1 ID3扩展 273
8.7.2 空间决策树 273
8.8 空间聚类算法 274
8.8.1 基于随机搜索的聚类方法CLARANS扩展 274
8.8.2 大型空间数据库基于距离分布的聚类算法DBCLASD 275
8.8.3 BANG 276
8.8.4 小波聚类 277
8.8.5 近似值 277
8.9 空间挖掘的其他问题 278
8.10 空间数据挖掘原型系统介绍 281
8.11 空间数据挖掘的研究现状 283
8.12 空间数据挖掘的研究与发展方向 284
8.13 空间数据挖掘与相关学科的关系 286
8.13.1 空间数据挖掘与空间数据库 286
8.13.2 空间数据挖掘与空间数据仓库 287
8.13.3 空间数据挖掘与空间联机分析处理 287
8.13.4 空间数据挖掘与地理信息系统 288
8.14 数字地球 289
8.15 本章小结和文献注释 289
参考文献 292
1.1 数据挖掘技术的产生与发展 1
1.1.1 数据挖掘技术的商业需求分析 1
1.1.2 数据挖掘产生的技术背景分析 3
1.2 数据挖掘研究的发展趋势 4
1.3 数据挖掘的概念 6
1.3.1 从商业角度看数据挖掘技术 7
1.3.2 数据挖掘的技术含义 7
1.3.3 数据挖掘研究的理论基础 8
1.4 数据挖掘技术的分类问题 10
1.5 数据挖掘常用的知识表示模式与方法 11
1.5.1 广义知识挖掘 11
1.5.2 关联知识挖掘 13
1.5.3 类知识挖掘 14
1.5.4 预测型知识挖掘 19
1.5.5 特异型知识挖掘 20
1.6 不同数据存储形式下的数据挖掘问题 21
1.6.1 事务数据库中的数据挖掘 21
1.6.2 关系型数据库中的数据挖掘 21
1.6.3 数据仓库中的数据挖掘 23
1.6.4 在关系模型基础上发展的新型数据库中的数据挖掘 23
1.6.5 面向应用的新型数据源中的数据挖掘 24
1.6.6 Web数据源中的数据挖掘 24
1.7 粗糙集方法及其在数据挖掘中的应用 26
1.7.1 粗糙集的一些重要概念 26
1.7.2 粗糙集应用举例 27
1.7.3 粗糙集方法在KDD中的应用范围 29
1.8 数据挖掘的应用分析 29
1.8.1 数据挖掘与CRM 29
1.8.2 数据挖掘应用的成功案例分析 30
1.9 本章小结和文献注释 32
第2章 知识发现过程与应用结构 37
2.1 知识发现的基本过程 37
2.1.1 数据抽取与集成 38
2.1.2 数据清洗与预处理 39
2.1.3 数据的选择与整理 39
2.1.4 数据挖掘 40
2.1.5 模式评估 40
2.2 数据库中的知识发现处理过程模型 41
2.2.1 阶梯处理过程模型 41
2.2.2 螺旋处理过程模型 42
2.2.3 以用户为中心的处理模型 43
2.2.4 联机KDD模型 45
2.2.5 支持多数据源多知识模式的KDD处理模型 46
2.3 知识发现软件或工具的发展 49
2.3.1 独立的知识发现软件 49
2.3.2 横向的知识发现工具 49
2.3.3 纵向的知识发现解决方案 50
2.3.4 KDD系统介绍 50
2.4 知识发现项目的过程化管理 53
2.5 数据挖掘语言介绍 54
2.5.1 数据挖掘语言的分类 54
2.5.2 数据挖掘查询语言 55
2.5.3 数据挖掘建模语言 56
2.5.4 通用数据挖掘语言 57
2.5.5 DMQL挖掘查询语言介绍 59
2.6 本章小结和文献注释 62
第3章 关联规则挖掘理论和算法 64
3.1 基本概念与解决方法 64
3.2 经典的频繁项目集生成算法分析 65
3.2.1 项目集格空间理论 65
3.2.2 经典的发现频繁项目集算法 66
3.2.3 关联规则生成算法 68
3.3 Apriori算法的性能瓶颈问题 70
3.4 Apriori的改进算法 71
3.4.1 基于数据分割(Partition)的方法 71
3.4.2 基于散列(Hash)的方法 72
3.4.3 基于采样(Sampling)的方法 73
3.5 项目集格空间理论的发展 74
3.5.1 Close算法 74
3.5.2 FP-tree算法 79
3.6 项目序列集格空间和它的操作 83
3.7 基于项目序列集操作的关联规则挖掘算法 85
3.7.1 关联规则挖掘空间 85
3.7.2 三个实用算子 85
3.7.3 最大频繁项目序列集的生成算法 87
3.7.4 ISS-DM算法执行示例 87
3.8 改善关联规则挖掘质量问题 88
3.8.1 用户主观层面 88
3.8.2 系统客观层面 89
3.9 约束数据挖掘问题 89
3.9.1 约束在数据挖掘中的作用 89
3.9.2 约束的类型 90
3.10 时态约束关联规则挖掘 93
3.11 关联规则挖掘中的一些更深入的问题 96
3.11.1 多层次关联规则挖掘 96
3.11.2 多维关联规则挖掘 97
3.11.3 数量关联规则挖掘 98
3.12 数量关联规则挖掘方法 99
3.12.1 数量关联规则挖掘问题 99
3.12.2 数量关联规则的分类 100
3.12.3 数量关联规则挖掘的一般步骤 101
3.12.4 数值属性离散化问题及算法 103
3.13 本章小结和文献注释 106
第4章 分类方法 109
4.1 分类的基本概念与步骤 109
4.2 基于距离的分类算法 111
4.3 决策树分类方法 114
4.3.1 决策树基本算法概述 115
4.3.2 ID3算法 117
4.3.3 C4.5算法 123
4.4 贝叶斯分类 127
4.4.1 贝叶斯定理 127
4.4.2 朴素贝叶斯分类 128
4.4.3 EM算法 130
4.5 规则归纳 134
4.5.1 AQ算法 135
4.5.2 CN2算法 138
4.5.3 FOIL算法 146
4.6 与分类有关的其他问题 150
4.6.1 分类数据预处理 150
4.6.2 分类器性能的表示与评估 151
4.7 本章小结和文献注释 153
第5章 聚类方法 156
5.1 概述 156
5.1.1 聚类分析在数据挖掘中的应用 157
5.1.2 聚类分析算法的概念与基本分类 158
5.1.3 距离与相似性的度量 160
5.2 划分聚类方法 163
5.2.1 k-平均算法 164
5.2.2 PAM 166
5.2.3 其他方法 170
5.3 层次聚类方法 170
5.3.1 AGNES算法 171
5.3.2 DIANA算法 172
5.3.3 其他聚类方法 174
5.4 密度聚类方法 175
5.5 其他聚类方法 178
5.5.1 STING算法 179
5.5.2 SOM算法 180
5.5.3 COBWEB算法 180
5.5.4 模糊聚类算法FCM 181
5.6 本章小结和文献注释 181
第6章 时间序列和序列模式挖掘 183
6.1 时间序列及其应用 183
6.2 时间序列预测的常用方法 184
6.2.1 确定性时间序列预测方法 184
6.2.2 随机时间序列预测方法 185
6.2.3 其他方法 185
6.3 基于ARMA模型的序列匹配方法 185
6.3.1 基本概念 185
6.3.2 利用基本概念建立模型 186
6.3.3 构造判别函数 187
6.4 基于离散富里叶变换的时间序列相似性查找 188
6.4.1 完全匹配 189
6.4.2 子序列匹配 190
6.5 基于规范变换的查找方法 192
6.5.1 基本概念 193
6.5.2 查找方法 193
6.6 序列挖掘 195
6.6.1 基本概念 196
6.6.2 数据源的形式 196
6.6.3 序列模式挖掘的一般步骤 198
6.7 AprioriAll 算法 199
6.8 AprioriSome 算法 202
6.9 GSP算法 205
6.10 本章小结和文献注释 207
第7章 Web挖掘技术 211
7.1 Web挖掘的意义 211
7.2 Web挖掘的分类 212
7.3 Web挖掘的含义 213
7.3.1 Web挖掘与信息检索 214
7.3.2 Web挖掘与信息抽取 214
7.4 Web挖掘的数据来源 215
7.4.1 服务器日志数据 215
7.4.2 在线市场数据 216
7.4.3 Web页面 216
7.4.4 Web页面超链接关系 216
7.4.5 其他信息 217
7.5 Web内容挖掘方法 217
7.5.1 爬虫与Web内容挖掘 218
7.5.2 虚拟的Web视图 218
7.5.3 个性化与Web内容挖掘 219
7.5.4 对Web页面内文本信息的挖掘 219
7.5.5 对Web页面内多媒体信息挖掘 220
7.5.6 Web页面内容的预处理 220
7.6 Web访问信息挖掘方法 221
7.6.1 Web访问信息挖掘的特点和意义 221
7.6.2 Web访问信息挖掘的意义 223
7.6.3 Web访问信息挖掘的数据源 224
7.6.4 Web访问信息挖掘的预处理 227
7.6.5 其他信息的预处理技术 231
7.6.6 在Web访问挖掘中的常用技术 233
7.6.7 Web访问信息挖掘的要素构成 234
7.6.8 利用Web访问信息挖掘实现用户建模 235
7.6.9 利用Web访问信息挖掘发现导航模式 237
7.6.10 利用Web访问信息挖掘改进访问效率 239
7.6.11 利用Web访问信息挖掘进行个性化服务 240
7.6.12 利用Web访问信息挖掘进行商业智能发现 242
7.6.13 利用Web访问信息挖掘进行用户移动模式发现 243
7.6.14 利用协作推荐的方法实现实时个性化推荐的例子 244
7.7 Web结构挖掘方法 247
7.7.1 页面重要性的评价方法 247
7.7.2 页面等级 248
7.7.3 权威页面和中心页面 248
7.7.4 Web站点结构的预处理 249
7.8 本章小结和文献注释 251
第8章 空间挖掘 256
8.1 引言 256
8.2 空间数据概要 257
8.2.1 空间数据的复杂性特征 257
8.2.2 空间查询问题 258
8.2.3 空间数据结构 259
8.2.4 专题地图 263
8.3 空间数据挖掘基础 264
8.4 空间统计学 265
8.5 泛化与特化 266
8.5.1 逐步求精 266
8.5.2 泛化 267
8.5.3 最临近 268
8.5.4 统计信息网格方法STING 268
8.6 空间规则 270
8.7 空间分类算法 272
8.7.1 ID3扩展 273
8.7.2 空间决策树 273
8.8 空间聚类算法 274
8.8.1 基于随机搜索的聚类方法CLARANS扩展 274
8.8.2 大型空间数据库基于距离分布的聚类算法DBCLASD 275
8.8.3 BANG 276
8.8.4 小波聚类 277
8.8.5 近似值 277
8.9 空间挖掘的其他问题 278
8.10 空间数据挖掘原型系统介绍 281
8.11 空间数据挖掘的研究现状 283
8.12 空间数据挖掘的研究与发展方向 284
8.13 空间数据挖掘与相关学科的关系 286
8.13.1 空间数据挖掘与空间数据库 286
8.13.2 空间数据挖掘与空间数据仓库 287
8.13.3 空间数据挖掘与空间联机分析处理 287
8.13.4 空间数据挖掘与地理信息系统 288
8.14 数字地球 289
8.15 本章小结和文献注释 289
参考文献 292
猜您喜欢