书籍详情

数据仓库和数据挖掘

数据仓库和数据挖掘

作者:苏新宁编著

出版社:清华大学出版社

出版时间:2006-04-01

ISBN:9787302126485

定价:¥29.00

购买这本书可以去
内容简介
  20世纪90年代兴起的数据仓库和数据挖掘代表着信息序化和信息分析技术的重大进展。两者的结合,已成为人类处理和分析海量信息的有力武器。本书在论述数据仓库和数据挖掘技术基本概念的基础上,系统和深入地剖析了数据仓库的模型,以数据仓库为应用平台的联机分析处理(OLAP)技术,以证券行业为对象的数据仓库的开发实例,数据库挖掘、文本挖掘、Web挖掘、数据挖掘软件,以及数据挖掘的应用,尤其在竞争情报系统和客户关系管理中的应用,从而为了解和掌握数据仓库和数据挖掘技术提供了一个知识门户。本书围绕着数据仓库和数据挖掘技术两大主题,从情报学和应用实践的视角,避免复杂的算法讲解,采用深入浅出的语言和案例,论述了数据仓库和数据挖掘这类新兴技术的基本理论、主要内容、关键技术和实际应用,以便为广大读者和从业者提供对这类计算机信息处理和分析技术的总体把握和应用知识。全书共分11章,在论述数据仓库和数据挖掘技术基本概念的基础上,系统和深入地剖析了数据仓库的模型,以数据仓库为应用平台的联机分析处理(OLAP)技术,以证券行业为对象的数据仓库的开发实例,数据库挖掘、文本挖掘、Web挖掘、数据挖掘软件,以及数据挖掘的应用,尤其在竞争情报系统和客户关系管理中的应用,从而为了解和掌握数据仓库和数据挖掘技术提供了一个知识门户。本书可供我国企业界、情报界、咨询界、教育界的信息分析、竞争情报、信息管理、知识管理、战略管理和软科学研究从业者的专业进修,以及高等院校师生教学和参考之用。
作者简介
  谢新洲 北京大学新闻与传播学院副院长兼北京大学中国竞争情报和竞争力研究中心主任,教授、博士、博士生导师。主要从事信息系统与信息咨询服务、电子出版技术与网络信息传播研究。曾获部委级科技进步奖和国家教委优秀教材奖多项,多次主持国家自然科学基金项目和部委级项目的研究。主编《现代信息管理》、《网络传播》等丛书3套,出版学术专著与教材多部。
目录
第1章  绪论    1
1.1  企业用户关心的新问题    1
1.2  解决问题的一项新技术——数据仓库    2
1.3  数据仓库的商业应用    3
1.4  数据仓库与信息管理    4
1.5  信息管理的新问题催生数据挖掘    6
1.6  数据挖掘与信息管理    7
1.7  数据仓库与数据挖掘    9
1.8  数据仓库与非结构化数据的管理    10
1.9  数据仓库与传统数据库长期共存    11
第2章  数据仓库概述    13
2.1  从传统数据库到数据仓库    13
2.1.1  传统数据库的不足    13
2.1.2  数据仓库与传统数据库的区别    16
2.2  数据仓库的基本概念    17
2.2.1  外部数据源    18
2.2.2  数据抽取    18
2.2.3  抽取存储区    18
2.2.4  数据清洗    18
2.2.5  数据转换    19
2.2.6  元数据    20
2.2.7  数据集市    21
2.3  数据仓库的体系结构    22
2.3.1  数据仓库系统的三个层次    22
2.3.2  数据仓库的构造模式    24
2.4  数据仓库的特点    25
2.4.1  面向主题    26
2.4.2  数据的集成性    27
2.4.3  数据的非易失性    28
2.4.4  数据的时变性    28
2.5  数据仓库的数据组织    28
2.5.1  数据仓库的数据综合    29
2.5.2  数据仓库中的时间分割    30
2.5.3  数据仓库中的数据组织    32
第3章  数据仓库中的模型    34
3.1  数据仓库中数据模型概述    34
3.2  数据仓库的概念模型    36
3.2.1  企业模型的建立    36
3.2.2  数据模型的规范    37
3.2.3  常见的概念模型    40
3.3  逻辑模型与物理模型    41
3.3.1  逻辑数据模型的特点    42
3.3.2  物理模型的设计要点    43
3.3.3  事实表的设计    44
3.3.4  维度表的设计    45
3.3.5  物理模型的设计对数据仓库性能的影响    46
3.4  元数据模型    47
3.4.1  元数据的类型    48
3.4.2  元数据的作用    49
3.4.3  元数据的收集与维护    50
3.4.4  元数据的使用    52
3.5  数据仓库的粒度模型    53
3.5.1  粒度的划分    54
3.5.2  粒度级别的确定    54
第4章  OLAP技术    56
4.1  OLAP概述    56
4.1.1  OLAP的发展历程与特点    56
4.1.2  OLAP的基本概念    57
4.1.3  OLAP分析的基本操作    60
4.1.4  OLAP与OLTP的比较    63
4.2  OLAP的评价标准    64
4.2.1  评价OLAP的十二条准则    64
4.2.2  对OLAP评价标准的补充    67
4.3  基于多维数据库的OLAP    67
4.3.1  多维数据库    67
4.3.2  MDDB数据中的时间序列    69
4.3.3  MDDB的数据存储与读取    70
4.4  基于RDBMS的OLAP    71
4.4.1  多维数据在RDBMS中的记录    72
4.4.2  星形结构的存储实现    73
4.4.3  MOLAP与ROLAP的比较    75
4.5  OLAP的前端展现    77
4.5.1  OLAP系统的结构    77
4.5.2  OLAP结果的展现方法    79
第5章  数据仓库的开发实例    81
5.1  SQL Server简介    81
5.1.1  SQL Server所提供的数据仓库功能    81
5.1.2  SQL Server的安装    81
5.1.3  Analysis Service窗口的打开与使用    85
5.2  SQL Server中创建数据仓库的准备工作    86
5.2.1  SQL Server中数据库与表的创建    86
5.2.2  DTS的设置与使用    88
5.2.3  分析数据库的建立与数据源的连接    91
5.3  维度的创建    93
5.3.1  创建“客户”维度    94
5.3.2  创建“时间”维度    97
5.3.3  其他维度的创建    98
5.4  多维数据集的创建与处理    99
5.4.1  多维数据集的创建    99
5.4.2  多维数据集的处理    101
5.5  多维数据集数据浏览与OLAP的实施    105
5.5.1  多维数据集中数据的浏览    105
5.5.2  多维数据集中维度的操作与OLAP功能的实现    106
5.6  数据仓库中的数据挖掘    108
5.6.1  SQL Server中数据挖掘的特性    108
5.6.2  决策树挖掘技术的使用    109
5.6.3  Microsoft聚集挖掘技术的应用    113
第6章  数据挖掘概述    115
6.1  数据挖掘基本概念    115
6.1.1  数据挖掘的由来    115
6.1.2  数据挖掘的技术定义    116
6.1.3  数据挖掘的商业定义    117
6.1.4  数据挖掘的对象    118
6.2  数据挖掘基本功能    119
6.2.1  概念描述    119
6.2.2  关联分析    120
6.2.3  分类    120
6.2.4  聚类    121
6.2.5  孤立点分析    121
6.2.6  时序演变分析    121
6.2.7  信息摘要    122
6.2.8  信息抽取    122
6.2.9  元数据挖掘    122
6.3  数据挖掘过程    123
6.3.1  Fayyad过程模型    123
6.3.2  CRISP-DM过程模型    125
6.3.3  数据挖掘过程工作量    129
6.3.4  建立数据挖掘环境    130
6.4  数据挖掘方法    132
6.4.1  决策树    132
6.4.2  神经网络    133
6.4.3  粗糙集    134
6.4.4  遗传算法    135
6.4.5  概率论与数理统计    137
6.4.6  模糊集    137
6.4.7  关联分析    138
6.5  数据挖掘系统发展阶段    138
第7章  数据库挖掘    140
7.1  概念描述    140
7.1.1  概念描述的生成过程    140
7.1.2  概念分层与数据泛化    141
7.1.3  概念分层方法    142
7.1.4  数据泛化方法    144
7.1.5  泛化的表示    147
7.1.6  属性相关分析    148
7.1.7  区别性描述    149
7.2  关联规则    149
7.2.1  关联规则相关概念    149
7.2.2  关联规则分类    151
7.2.3  单维布尔关联规则    151
7.2.4  多层关联规则    155
7.2.5  多维关联规则    156
7.2.6  基于约束的挖掘    159
7.3  分类    161
7.3.1  分类过程与方法    161
7.3.2  决策树分类    162
7.3.3  贝叶斯分类    165
7.3.4  神经网络方法    167
7.4  聚类分析    169
7.4.1  聚类分析概述    169
7.4.2  聚类处理的数据结构    171
7.4.3  聚类处理的数据类型    171
7.4.4  聚类方法分类    174
7.4.5  典型聚类方法    175
7.4.6  孤立点分析    182
7.5  关联规则兴趣度    183
7.5.1  兴趣度的作用    183
7.5.2  客观性兴趣度    183
7.5.3  主观性兴趣度    184
7.5.4  两种标准的综合    185
第8章  文本挖掘    187
8.1  文本挖掘概述    187
8.1.1  文本挖掘的主要技术    187
8.1.2  文本挖掘的一般过程    188
8.1.3  文本挖掘的主要应用    189
8.1.4  文本挖掘对信息检索的影响    189
8.2  文本的预处理    190
8.2.1  文本表示    190
8.2.2  自动分词    191
8.2.3  文本标引    194
8.2.4  文本相似度计算    197
8.2.5  词频矩阵降维    198
8.2.6  去除重复文本    199
8.2.7  文本过滤    200
8.3  文本分类    201
8.3.1  文本分类应用    201
8.3.2  文本分类方法    202
8.3.3  分类效果评价    204
8.4  文本聚类    205
8.4.1  划分聚类法    205
8.4.2  层次聚类法    206
8.4.3  神经网络聚类法    207
8.4.4  遗传算法聚类法    208
8.4.5  网页聚类    208
8.5  自动摘要    209
8.5.1  自动摘要应用    209
8.5.2  自动摘要方法    210
8.5.3  中文自动摘要系统    212
第9章  Web挖掘    214
9.1  概述    214
9.1.1  Web挖掘概念    214
9.1.2  几个相关概念    216
9.1.3  Web挖掘数据源    219
9.1.4  Web挖掘过程    221
9.1.5  Web挖掘的挑战    223
9.2  Web挖掘任务分类    225
9.2.1  Web内容挖掘    226
9.2.2  Web结构挖掘    228
9.2.3  Web使用挖掘    231
9.3  Web挖掘技术分类    234
9.3.1  统计分析    234
9.3.2  关联规则    235
9.3.3  序列模式    236
9.3.4  聚类与分类    237
9.4  Web挖掘的应用    237
9.4.1  在搜索引擎中的应用    238
9.4.2  在网站设计中的应用    239
9.4.3  在电子商务中的应用    240
9.4.4  电子商务网站的Web挖掘实施过程    241
第10章  数据挖掘应用    247
10.1  数据挖掘应用案例    247
10.1.1  生物医学    248
10.1.2  市场业    249
10.1.3  科学研究    250
10.1.4  竞技运动    252
10.1.5  商业银行    252
10.1.6  商务应用    253
10.2  数据挖掘产品    254
10.2.1  产品分类    255
10.2.2  产品介绍    256
10.2.3  产品评价    258
10.2.4  产品选择    260
第11章  数据挖掘与竞争情报系统    262
11.1  竞争情报系统概述    262
11.1.1  竞争情报系统概念    262
11.1.2  数据挖掘应用现状    263
11.2  竞争情报流程    265
11.2.1  数据挖掘应用    265
11.2.2  数据准备    266
11.2.3  关系信息的挖掘    267
11.2.4  指标值的自动抽取    269
11.3  竞争对手分析    272
11.3.1  主要竞争产品的确定    272
11.3.2  选择核心竞争对手的依据    273
11.3.3  潜在竞争对手的类型    274
11.3.4  核心竞争对手的确定    276
11.3.5  挖掘潜在竞争对手    278
11.4  客户分析    278
11.4.1  客户关系管理    279
11.4.2  客户数据收集    281
11.4.3  客户获取    282
11.4.4  客户保持    284
11.4.5  交叉销售    285
11.4.6  客户细分    286
参考文献    289
猜您喜欢

读书导航