书籍详情

数据挖掘：概念与技术

作者：（加）[韩家炜]JiaweiHan，（加）Micheline Kamber著；范明，孟小峰等译

出版社：机械工业出版社

出版时间：2001-08-01

ISBN：9787111090489

定价：¥39.00

购买这本书可以去

内容简介

　　数据挖掘是数据库研究、开发和应用最活跃的分支之一。本书从数据库角度全面、系统地介绍数据挖掘的基本概念、基本方法和基本技术以及数据挖掘的最新进展，是一本可读性极佳的教材。本书全面而深入地叙述了数据库技术的发展和数据挖掘应用的重要性，数据仓库和OLAP（联机分析处理）技术，数据预处理技术（包括数据清理、数据集成和转换、数据归约的方法），数据挖掘技术（包括分类、预测、关联和聚类等基础概念和技术），先进的数据库系统中的数据挖掘方法，数据挖掘的庆用和一些具有挑战性的研究问题。作者注重实效，将以上内容辅以实例，对每类问题均提供代表性算法，并给出每一技术具体的应用法则。该书由10章及两个附录组成。通过本书的学习，读者可以对数据挖掘的整体结构、概念和技术有深入的认识和了解，并且可以熟悉数据挖掘的基本原理和发展方向。目录：译者序序前言第1章引言第2章数据仓库和数据挖掘的OLAP第3章数据预处理第4章数据挖掘原语、语言和系统结构第5章概念描述：特征化与比较第6章挖掘大型数据库中的关联规则第7章分类和预测第8章聚类分析第9章复杂和类型数据的挖掘第10章数据挖掘的应用和发展趋势附录A附录B参考文献索引

作者简介

　　范明，郑州大学计算机科学系统教授，副系主任，兼任河南省计算机学会软件专业委员会主任。长期从事计算机软件数学和研究。主要讲授的课程包括计算机操作系统、数据库系统原理、知识库系统原理、数据挖掘和程序设计等。关心的主要研究领域包括递归查询优化、数据挖掘和数据仓库。1989——1990年曾访问加拿大西蒙·弗雷泽大学计算机科学系，从事演绎数据库研究。1999年访问美国Wrightstate大学计算机科学与工程系、从事数据挖掘研究。曾与南京大学徐洁磐教授合作主持国家自然科学基金项目1项，主持河南省自然科学基金和科技攻关项目多项。近十年发表论文20余篇，参加了《数据库综合大辞典》（1995）和《数据库技术新进展》（1997）的编写，并与徐洁磐。马玉书合作出版著作《知识库系统导论》（2000）。孟小峰，博士，教授，中国人民大学信息学院计算机系副主任，中国计算机学会理事，中国计算机学会数据库专业委员会委员、秘书长，中国计算机学会青年计算机科技论坛（YOCSEF）副主席，多次担任国际学术会议程序委员会委员，目前为《计算机研究与发展》编委。1994-1996年曾在香港中文大学和城市大学从事研究工作。主持或参加过十多项国家科技攻关项目、国家自然科学基金以及国家863项目，获国家科技进步二等奖，电子部科技进步特等奖，北京市科技进步二等奖等奖励。研制开发的主要软件产品有国产数据库系统COBASE、嵌入式移动数据库系统“小精灵”、中文自然语言查询系统NChiql和并行数据库系统PBASE/1等。近十年在国内外杂志及国际会议发表论文50余篇，有数据方面的著译作七部。主要研究领域为数据库系统实现技术、数据库查询语言、自然语言接口、嵌入与移动数据管理、Web数据管理等。

译者序
序
前言
第1章
引言 1
1.1
什么激发了数据挖掘,?为什么
它是重要的 1
1.2
什么是数据挖掘 3
1.3
在何种数据上进行数据挖掘 6
1.3.1
关系数据库 7
1.3.2
数据仓库 8
1.3.3
事务数据库 10
1.3.4
高级数据库系统和高级数据库
应用 11
1.4
数据挖掘功能—可以挖掘什么
类型的模式 14
1.4.1
概念/类描述：特征化和区分 14
1.4.2
关联分析 15
1.4.3
分类和预测 16
1.4.4
聚类分析 16
1.4.5
孤立点分析 17
1.4.6
演变分析 17
1.5
所有模式都是有趣的吗 18
1.6
数据挖掘系统的分类 19
1.7
数据挖掘的主要问题 20
1.8
小结 22
习题 22
文献注释 23
第2章
数据仓库和数据挖掘的OLAP
技术 26
2.1
什么是数据仓库 26
2.1.1
操作数据库系统与数据仓库的
区别 27
2.1.2
为什么需要一个分离的数据仓库 29
2.2
多维数据模型 29
2.2.1
由表和电子数据表到数据立方体 29
2.2.2
星型.?雪花和事实星座：多维数
据库模式 32
2.2.3
定义星型.?雪花和事实星座模式的
例子 34
2.2.4
度量的分类和计算 36
2.2.5
引入概念分层 37
2.2.6
多维数据模型上的OLAP操作 39
2.2.7
查询多维数据库的星型网查询模型 41
2.3
数据仓库的系统结构 42
2.3.1
数据仓库的设计步骤和结构 42
2.3.2
三层数据仓库结构 44
2.3.3
OLAP服务器类型：ROLAP,MOLAP,
HOLAP的比较 46
2.4
数据仓库实现 47
2.4.1
数据立方体的有效计算 47
2.4.2
索引OLAP数据 52
2.4.3
OLAP查询的有效处理 54
2.4.4
元数据存储 55
2.4.5
数据仓库后端工具和实用程序 56
2.5
数据立方体技术的进一步发展 56
2.5.1
数据立方体发现驱动的探查 56
2.5.2
多粒度上的复杂聚集：多特征方 59
2.5.3
其他进展 61
2.6
从数据仓库到数据挖掘 61
2.6.1
数据仓库的使用 62
2.6.2
从联机分析处理到联机分析挖掘 63
2.7
小结 65
习题 66
文献注释 68
第3章
数据预处理 70
3.1
为什么要预处理数据 70
3.2
数据清理 72
3.2.1
空缺值 72
3.2.2
噪声数据 73
3.2.3
不一致数据 74
3.3
数据集成和变换 75
3.3.1
数据集成 75
3.3.2
数据变换 76
3.4
数据归约 77
3.4.1
数据立方体聚集 77
3.4.2
维归约 79
3.4.3
数据压缩 80
3.4.4
数值归约 82
3.5
离散化和概念分层生成 87
3.5.1
数值数据的离散化和概念分层
生成 88
3.5.2
分类数据的概念分层生成 91
3.6
小结 93
习题 93
文献注释 94
第4章
数据挖掘原语.?语言和系统
结构 96
4.1
数据挖掘原语：定义数据挖掘任务 96
4.1.1
任务相关的数据 98
4.1.2
要挖掘的知识的类型 99
4.1.3
背景知识：概念分层 100
4.1.4
兴趣度度量 102
4.1.5
发现模式的表示和可视化 104
4.2
一种数据挖掘查询语言 105
4.2.1
任务相关数据说明的语法 107
4.2.2
指定挖掘知识类型的语法 107
4.2.3
概念分层说明的语法 109
4.2.4
兴趣度度量说明的语法 110
4.2.5
模式表示和可视化说明的语法 110
4.2.6
汇集—一个DMQL查询的例子 111
4.2.7
其他数据挖掘语言和数据挖掘
原语的标准化 112
4.3
根据数据挖掘查询语言设计图形
用户界面 113
4.4
数据挖掘系统的结构 113
4.5
小结 115
习题 115
文献注释 117
第5章
概念描述：特征化与比较 119
5.1
什么是概念描述 119
5.2
数据概化和基于汇总的特征化 120
5.2.1
面向属性的归纳 120
5.2.2
面向属性归纳的有效实现 124
5.2.3
导出概化的表示 125
5.3
解析特征化：属性相关分析 128
5.3.1
为什么进行属性相关分析 129
5.3.2
属性相关分析方法 129
5.3.3
解析特征化：一个例子 131
5.4
挖掘类比较：区分不同的类 132
5.4.1
类比较方法和实现 133
5.4.2
类比较描述的表示 135
5.4.3
类描述：特征化和比较的表示 136
5.5
在大型数据库中挖掘描述统计
度量 137
5.5.1
度量中心趋势 138
5.5.2
度量数据的离散度 139
5.5.3
基本统计类描述的图形显示 141
5.6
讨论 144
5.6.1
概念描述：与典型的机器学习方法
比较 144
5.6.2
概念描述的增量挖掘和并行
挖掘 145
5.7
小结 146
习题 146
文献注释 147
第6章
挖掘大型数据库中的关联规则 149
6.1
关联规则挖掘 149
6.1.1
购物篮分析：一个引发关联规则
挖掘的例子 150
6.1.2
基本概念 150
6.1.3
关联规则挖掘：一个路线图 151
6.2
由事务数据库挖掘单维布尔关联
规则 152
6.2.1
Apriori算法：使用候选项集找
频繁项集 152
6.2.2
由频繁项集产生关联规则 156
6.2.3
提高Apriori的有效性 157
6.2.4
不产生候选挖掘频繁项集 158
6.2.5
冰山查询 161
6.3
由事务数据库挖掘多层关联规则 162
6.3.1
多层关联规则 162
6.3.2
挖掘多层关联规则的方法 163
6.3.3
检查冗余的多层关联规则 166
6.4
由关系数据库和数据仓库挖掘多维
关联规则 167
6.4.1
多维关联规则 167
6.4.2
使用量化属性的静态离散化挖掘
多维关联规则 168
6.4.3
挖掘量化关联规则 169
6.4.4
挖掘基于距离的关联规则 171
6.5
由关联挖掘到相关分析 172
6.5.1
强关联规则不一定是有趣的：
一个例子 172
6.5.2
由关联分析到相关分析 173
6.6
基于约束的关联挖掘 174
6.6.1
关联规则的元规则制导挖掘 174
6.6.2
用附加的规则约束制导的挖掘 175
6.7
小结 179
习题 180
文献注释 183
第7章
分类和预测 185
7.1
什么是分类,?什么是预测 185
7.2
关于分类和预测的问题 187
7.2.1
准备分类和预测的数据 187
7.2.2
比较分类方法 187
7.3
用判定树归纳分类 188
7.3.1
判定树归纳 189
7.3.2
树剪枝 192
7.3.3
由判定树提取分类规则 192
7.3.4
基本判定树归纳的加强 193
7.3.5
判定树归纳的可伸缩性 194
7.3.6
集成数据仓库技术和判定树
归纳 195
7.4
贝叶斯分类 196
7.4.1
贝叶斯定理 196
7.4.2
朴素贝叶斯分类 197
7.4.3
贝叶斯信念网络 199
7.4.4
训练贝叶斯信念网络 200
7.5
后向传播分类 201
7.5.1
多层前馈神经网络 201
7.5.2
定义网络拓扑 202
7.5.3
后向传播 202
7.5.4
后向传播和可解释性 206
7.6
基于源自关联规则挖掘概念的
分类 207
7.7
其他分类方法 209
7.7.1
k-最临近分类 209
7.7.2
基于案例的推理 209
7.7.3
遗传算法 210
7.7.4
粗糙集方法 210
7.7.5
模糊集方法 211
7.8
预测 212
7.8.1
线性回归和多元回归 212
7.8.2
非线性回归 213
7.8.3
其他回归模型 214
7.9
分类法的准确性 214
7.9.1
评估分类法的准确率 214
7.9.2
提高分类法的准确率 215
7.9.3
准确率足够判定分类法吗 216
7.10
小结 217
习题 218
文献注释 219
第8章
聚类分析 223
8.1
什么是聚类分析 223
8.2
聚类分析中的数据类型 225
8.2.1
区间标度变量 226
8.2.2
二元变量 227
8.2.3
标称型.?序数型和比例标度型
变量 228
8.2.4
混合类型的变量 230
8.3
主要聚类方法的分类 231
8.4
划分方法 232
8.4.1
典型的划分方法：k-平均
和k-中心点 232
8.4.2
大型数据库中的划分方法：从k-中
心点到CLARANS 235
8.5
层次方法 236
8.5.1
凝聚的和分裂的层次聚类 236
8.5.2
BIRCH：利用层次方法的平衡
迭代归约和聚类 238
8.5.3
CURE：利用代表点聚类 239
8.5.4
Chameleon（变色龙）：一个利用
动态模型的层次聚类算法 240
8.6
基于密度的方法 242
8.6.1
DBSCAN：一个基于高密度连接
区域的密度聚类方法 242
8.6.2
OPTICS：通过对象排序识别
聚类结构 243
8.6.3
DENCLUE：基于密度分布函数
的聚类 245
8.7
基于网格的方法 246
8.7.1
STING：统计信息网格 247
8.7.2
WaveCluster：采用小波变换聚类 248
8.7.3
CLIQUE：聚类高维空间 249
8.8
基于模型的聚类方法 251
8.8.1
统计学方法 251
8.8.2
神经网络方法 253
8.9
孤立点分析 254
8.9.1
基于统计的孤立点检测 255
8.9.2
基于距离的孤立点检测 256
8.9.3
基于偏离的孤立点检测 257
8.10
小结 259
习题 260
文献注释 261
第9章
复杂类型数据的挖掘 263
9.1
复杂数据对象的多维分析
和描述性挖掘 263
9.1.1
结构化数据的概化 263
9.1.2
空间和多媒体数据概化中的聚集
和近似计算 264
9.1.3
对象标识符和类/子类层次的概化 265
9.1.4
类复合层次的概化 265
9.1.5
对象立方体的构造与挖掘 266
9.1.6
用分而治之方法对规划数据库进行
基于概化的挖掘 266
9.2
空间数据库挖掘 269
9.2.1
空间数据立方体构造
和空间OLAP 270
9.2.2
空间关联分析 273
9.2.3
空间聚类方法 273
9.2.4
空间分类和空间趋势分析 274
9.2.5
光栅数据库挖掘 274
9.3
多媒体数据库挖掘 274
9.3.1
多媒体数据的相似性搜索 275
9.3.2
多媒体数据的多维分析 276
9.3.3
多媒体数据的分类和预测分析 277
9.3.4
多媒体数据中的关联规则挖掘 277
9.4
时序数据和序列数据的挖掘 278
9.4.1
趋势分析 279
9.4.2
时序分析中的相似搜索 280
9.4.3
序列模式挖掘 283
9.4.4
周期分析 284
9.5
文本数据库挖掘 285
9.5.1
文本数据分析和信息检索 285
9.5.2
文本挖掘：基于关键字的关联和
文档分类 289
9.6
Web挖掘 290
9.6.1
挖掘Web链接结构,?识别权威
Web页面 291
9.6.2
Web文档的自动分类 293
9.6.3
多层Web信息库的构造 293
9.6.4
Web使用记录的挖掘 294
9.7
小结 295
习题 296
文献注释 297
第10章
数据挖掘的应用和发展趋势 301
10.1
数据挖掘的应用 301
10.1.1
针对生物医学和DNA数据分析
的数据挖掘 301
10.1.2
针对金融数据分析的数据挖掘 302
10.1.3
零售业中的数据挖掘 303
10.1.4
电信业中的数据挖掘 304
10.2
数据挖掘系统产品和研究原型 305
10.2.1
怎样选择一个数据挖掘系统 305
10.2.2
商用数据挖掘系统的例子 307
10.3
数据挖掘的其他主题 308
10.3.1
视频和音频数据挖掘 308
10.3.2
科学和统计数据挖掘 311
10.3.3
数据挖掘的理论基础 312
10.3.4
数据挖掘和智能查询应答 313
10.4
数据挖掘的社会影响 314
10.4.1
数据挖掘是宣传出来的还是持久
的稳定增长的商业 314
10.4.2
数据挖掘只是经理的事还是
每个人的事 316
10.4.3
数据挖掘对隐私或数据安全构
成威胁吗 317
10.5
数据挖掘的发展趋势 318
10.6
小结 319
习题 320
文献注释 321
附录A
Microsoft''''s?OLE?DB?for?Data
Mining简介 323
A.1
创建DMM对象 324
A.2
向模型装入训练数据并对模型
进行训练 325
A.3
模型的使用 325
附录B
DBMiner简介 328
B.1
系统结构 328
B.2
输入和输出 329
B.3
系统支持的数据挖掘任务 329
B.4
对任务和方法选择的支持 332
B.5
对KDD处理过程的支持 332
B.6
主要应用 332
B.7
现状 332
参考文献 333
索引 362

猜您喜欢

时序大数据平台TDengine核心原理与实战

数据挖掘与商务智能实验教程

问卷数据分析思路与方法