书籍详情
数据仓库基础
作者:(美)Paulraj Ponniah著;段云峰等译;段云峰译
出版社:电子工业出版社
出版时间:2004-04-01
ISBN:9787505397842
定价:¥69.00
购买这本书可以去
内容简介
这是一本专门为信息技术领域专业人员而写的权威书籍。本书的组织和内容的陈述都是专门为信息技术领域专业人员而设计的,只对该领域感兴趣的业外人士不是本书的目标读者,编写此书旨在满足IT专业人士的具体需要。在内容上,没有特别强调某些特定的方面而忽略其他重要方面。这本书将把你带入一个完整的数据仓库的世界。这本书是如何做到适应信息技术领域专业人员需要的呢?作为具有丰富IT行业实际经验的IT专业人员,作为一个成功的数据库和数据仓库的资深顾问,以及在大学课堂和公开研讨班里教授数据仓库基础课程的老师,我非常准确地了解IT专业人员的需要,在本书的每一章中,我都将谈到IT中的这些需求。PaulrajPonniah:是具有25年工作经验的IT专家,专长于数据仓库和数据库系统的设计和实现。同时,他也教授数据库和数据仓库教程。本书全面而详细地讲述了关于数据仓库每一个重要部分的内容,包括计划、需求、体系、基础、结构、设计、数据准备、信息传递、配置和维护等。本书编排合理,每章提供本章主题,本章小结,可以使读者将每一个概念和技术同数据仓库的实践和市场结合起来;还提供复习思考题和练习供读者巩固学习到的知识。总之,本书几乎涵盖了数据仓库领域所有方面的知识,如果你想成为数据仓库领域专家,它是值得一读的。本书是专门为IT专业人员而量身定做的介绍数据仓库知识的书籍,适合于想掌握数据仓库基础知识的系统分析员、程序员、数据分析员、数据库管理员、项目经理和软件工程师阅读,还非常适合作为大中院校相关专业的教科书或培训用书,供自学人员、大学课程或科研机构使用。
作者简介
PaulrajPonniah:是具有25年工作经验的IT专家,专长于数据仓库和数据库系统的设计和实现。同时,他也教授数据库和数据仓库教程。
目录
第1章 对数据仓库的迫切需求 1
本章目标 1
1.1 对战略信息的不断增长的需求 2
1.1.1 信息危机 4
1.1.2 技术趋势 5
1.1.3 机遇和风险 6
1.2 以往的决策支持系统的失败 8
1.2.1 决策支持系统的历史 9
1.2.2 缺乏提供战略信息的能力 10
1.3 操作型系统和决策支持系统 11
1.3.1 使商业运作起来 11
1.3.2 监视商业的运作 12
1.3.3 不同的范围, 不同的目的 12
1.4 数据仓库——惟一可行的解决方案 13
1.4.1 一种新类型的系统环境 13
1.4.2 新环境下的需求处理 14
1.4.3 数据仓库的商业智能 14
1.5 数据仓库的定义 15
1.5.1 数据仓库是信息传递的一种简单概念 15
1.5.2 数据仓库是一种环境, 而不是产品 16
1.5.3 数据仓库是多种技术的混合体 16
本章小结 17
复习思考题 18
练习题 18
第2章 数据仓库的组成部分 20
本章目标 20
2.1 定义的特点 21
2.1.1 面向主题的数据 21
2.1.2 综合的数据 22
2.1.3 数据的时间特性 24
2.1.4 数据的非易变性 24
2.1.5 数据粒度 26
2.2 数据仓库和数据集市 27
2.2.1 它们有什么不同 27
2.2.2 自上而下和自下而上的方法 28
2.2.3 一个实用的方法 29
2.3 数据仓库的组成部分 30
2.3.1 源数据部分 31
2.3.2 数据准备部分 34
2.3.3 数据存储部分 37
2.3.4 信息传递部分 37
2.3.5 元数据部分 38
2.3.6 管理和控制部分 39
2.4 数据仓库中的元数据 39
2.4.1 元数据的类型 39
2.4.2 元数据的特殊意义 40
本章小结 41
复习思考题 41
练习题 42
第3章 数据仓库的发展趋势 43
本章目标 43
3.1 数据仓库的持续成长 44
3.1.1 数据仓库正在成为主流 44
3.1.2 数据仓库的扩张 45
3.1.3 解决方案和产品 46
3.2 重要趋势 48
3.2.1 多种数据类型 48
3.2.2 数据可视化 51
3.2.3 并行处理 53
3.2.4 查询工具 55
3.2.5 浏览工具 55
3.2.6 数据融合 56
3.2.7 多维分析 56
3.2.8 代理技术 57
3.2.9 企业组合数据 57
3.2.10 数据仓库和ERP 58
3.2.11 数据仓库和知识管理 59
3.2.12 数据仓库和CRM 60
3.2.13 活跃的数据仓库 62
3.3 标准的出现 62
3.3.1 元数据 63
3.3.2 OLAP 64
3.4 支持Web的数据仓库 65
3.4.1 将数据仓库放入Web中 65
3.4.2 将Web技术引入数据仓库 66
3.4.3 支持Web技术的配置 67
本章小结 68
复习思考题 68
练习题 69
第4章 规划和项目管理 70
本章目标 70
4.1 规划你的数据仓库 71
4.1.1 关键问题 71
4.1.2 商业需求, 而非技术 74
4.1.3 高层管理的支持 75
4.1.4 数据仓库的可行性分析 75
4.1.5 全盘计划 77
4.2 数据仓库项目 77
4.2.1 有什么不同 78
4.2.2 准备情况的评估 79
4.2.3 生命周期方法 80
4.2.4 开发的各阶段 82
4.3 项目团队 83
4.3.1 组织项目团队 83
4.3.2 角色和责任 84
4.3.3 技能和经验水平 87
4.3.4 用户参与 88
4.4 项目管理要素 89
4.4.1 项目管理的指导原则 90
4.4.2 警告征兆 91
4.4.3 成功的因素 92
4.4.4 成功项目细审 93
4.4.5 采用实用的方法 94
本章小结 95
复习思考题 96
练习题 96
第5章 定义商业需求 98
本章目标 98
5.1 维度分析 98
5.1.1 对不可预知的信息的使用 99
5.1.2 商业数据的维度 99
5.1.3 商业维度的例子 101
5.2 信息包——一个新概念 102
5.2.1 不完全确定的需求 102
5.2.2 商业维度 104
5.2.3 维度层次和分类 104
5.2.5 关键商业指标或事实 106
5.3 收集需求的方法 108
5.3.1 采访技巧 109
5.3.2 调整联合应用程序设计方法 111
5.3.3 回顾已有的文档 113
5.4 需求定义:范围和内容 114
5.4.1 数据源 115
5.4.2 数据转换 115
5.4.3 数据存储 116
5.4.4 信息传递 116
5.4.5 信息包表 116
5.4.6 需求定义文档提纲 116
本章小结 117
复习思考题 117
练习题 118
第6章 需求——数据仓库的驱动力 120
本章目标 120
6.1 数据设计 121
6.1.1 商业维度的结构 123
6.1.2 关键衡量指标的结构 124
6.1.3 细节层次 124
6.2 体系结构规划 125
6.2.1 组成部分的构成 126
6.2.2 特殊因素 127
6.2.3 工具和产品 130
6.3 数据存储规范 132
6.3.1 数据库管理系统的选择 133
6.3.2 存储规模估计 134
6.4 信息传递策略 135
6.4.1 查询和报表 136
6.4.2 分析的类型 137
6.4.3 信息分发 137
6.4.4 决策支持应用程序 137
6.4.5 发展和扩大 138
本章小结 138
复习思考题 138
练习题 139
第7章 体系结构及其组成部分 141
本章目标 141
7.1掌握数据仓库的体系结构 141
7.1.1 体系结构:定义 141
7.1.2 三个主要区域的体系结构 142
7.2 区别于其他结构的特点 143
7.2.1 不同的目标和范围 144
7.2.2 数据内容 145
7.2.3 复杂分析和快速响应 145
7.2.4 灵活性和动态性 146
7.2.5 元数据驱动 146
7.3 体系结构框架 147
7.3.1 支持数据流的体系结构 147
7.3.2 管理和控制模块 148
7.4 技术体系结构 149
7.4.1 数据获取 151
7.4.2 数据存储 154
7.4.3 信息传递 156
本章小结 158
复习思考题 159
练习题 159
第8章 数据仓库的基础构造 161
本章目标 161
8.1 支持体系结构的基础构造 161
8.1.1 操作型基础构造 163
8.1.2 物理基础构造 163
8.2 硬件和操作系统 165
8.2.1 平台选择 166
8.2.2 服务器硬件 178
8.3 数据库软件 183
8.3.1 并行处理方案 184
8.3.2 数据库管理系统的选择 186
8.4 工具收集 187
8.4.1 先设计好体系结构, 再选择工具 188
8.4.2 数据建模 189
8.4.3 数据抽取 189
8.4.4 数据转换 189
8.4.5 数据装载 190
8.4.6 数据质量 190
8.4.7 查询和报表 190
8.4.8 联机分析处理(OLAP) 190
8.4.9 预警系统 191
8.4.10 中间件及连接部件 191
8.4.11 数据仓库管理 191
本章小结 191
复习思考题 192
练习题 192
第9章 元数据的重要角色 194
本章目标 194
9.1 元数据的重要性 194
9.1.1 数据仓库的关键需求 196
9.1.2 为什么元数据对最终用户很关键 200
9.1.3 为什么元数据对IT人员很关键 201
9.1.4 数据仓库任务自动化 203
9.1.5 建立信息上下文 205
9.2 按功能区域划分的元数据类型 206
9.2.1 数据获取 207
9.2.2 数据存储 208
9.2.3 信息传递 210
9.3 商业元数据 211
9.3.1 内容总揽 211
9.3.2 商业元数据举例 212
9.3.3 内容重点 213
9.3.4 谁会受益 213
9.4 技术元数据 214
9.4.1 内容总揽 214
9.4.2 技术元数据举例 214
9.4.3 内容重点 216
9.4.4 谁会受益 216
9.5 如何提供元数据 217
9.5.1 元数据需求 218
9.5.2 元数据的来源 219
9.5.3 元数据管理面临的挑战 221
9.5.4 元数据储存库 222
9.5.5 元数据集成与标准 224
9.5.6 实施选项 224
本章小结 226
复习思考题 227
练习题 227
第10章 维度建模的原则 229
本章目标 229
10.1 从需求到数据设计 229
10.1.1 设计决策 230
10.1.2 维度建模基础 230
10.1.3 E-R建模与维度建模的对比 235
10.1.4 使用CASE工具 236
10.2 星型模式 237
10.2.1 一个简单的星型模式的回顾 237
10.2.2 维度表的内容 240
10.2.3 事实表的内容 242
10.2.4 不含事实的事实表 244
10.2.5 数据粒度 245
10.3 星型模式的键 246
10.3.1 主键 246
10.3.2 替代键 247
10.3.3 外键 248
10.4 星型模式的优势 248
10.4.1 用户容易理解 249
10.4.2 优化浏览 250
10.4.3 最适于查询处理 251
10.4.4 星型连接和星型索引 252
本章小结 252
复习思考题 253
练习题 253
第11章 维度建模:高级专题 255
本章目标 255
11.1 维度表的更新 256
11.1.1慢速变化中的维度 256
11.1.2 第1类修改:改正错误 257
11.1.3 第2类修改:保存历史数据 259
11.1.4 第3类修改:暂时的(软性的)修改 260
11.2 各式各样的维度 262
11.2.1 大维度 263
11.2.2 快速变化中的维度 264
11.2.3 废弃维度 266
11.3 雪花型模式 267
11.3.1 规范化选项 268
11.3.2 优势与劣势 269
11.3.3 什么时候使用雪花型模式 270
11.4 聚集事实表 271
11.4.1 事实表的大小 273
11.4.2 对聚集的需求 275
11.4.3 对事实表进行聚集 275
11.4.4 聚集的选项 281
11.5 星型模式族 283
11.5.1 快照表和事务表 284
11.5.2 核心表和定制表 285
11.5.3 支持企业价值链或者价值环 286
11.5.4 使维度一致 287
11.5.5 将事实表标准化 288
11.5.6 星型模式族小结 289
本章小结 290
复习思考题 290
练习题 291
第12章 数据抽取. 转换和装载 292
本章目标 292
12.1 ETL概览 293
12.1.1 最重要和最具有挑战性 294
12.1.2 耗时而且费劲 295
12.1.3 ETL的需求和步骤 296
12.1.4 关键因素 297
12.2 数据抽取 298
12.2.1 数据源确认 299
12.2.2 数据抽取技术 300
12.2.3 技术的评估 307
12.3 数据转换 309
12.3.1 数据转换:基本任务 310
12.3.2 主要转换类型 311
12.3.4 数据整合和合并 313
12.3.5 维度属性的转换 315
12.3.6 如何实施转换 316
12.4 数据装载 318
12.4.1 应用数据:技术和过程 319
12.4.2 数据的刷新和更新 322
12.4.3 维度表的规程 323
12.4.4 事实表:历史与增量的装载 324
12.5 ETL总结 325
12.5.1 ETL工具选项 326
12.5.2 再次强调ETL中的元数据(Metadata) 327
12.5.3 ETL的总结和方法 328
本章小结 329
复习思考题 330
练习题 330
第13章 数据质量:成功的关键 332
本章目标 332
13.1 为什么数据质量如此重要 333
13.1.1 什么是数据质量 334
13.1.2 提高数据质量的好处 337
13.1.3 数据质量问题的类型 338
13.2 数据质量的挑战 341
13.2.1 数据污染的来源 342
13.2.2 姓名和地址的有效性 344
13.2.3 数据质量低劣带来的代价 345
13.3 数据质量工具 346
13.3.1 数据清洗工具的分类 346
13.3.2 错误发现特性 346
13.3.3 数据修正特性 347
13.3.4 数据库管理系统的质量控制 347
13.4 确保数据质量的第一步 348
13.4.1 数据清洗的决策 349
13.4.2 谁应该负责 352
13.4.3 净化过程 353
13.4.4 对数据质量的实用建议 355
本章小结 356
复习思考题 356
练习题 357
第14章 信息和用户类型之间的匹配 359
本章目标 359
14.1 来自于数据仓库的信息 360
14.1.1 数据仓库和操作型系统 360
14.1.2 信息潜力 362
14.1.3 用户—信息接口 366
14.1.4 行业应用 368
14.2 谁将使用这些信息 368
14.2.1 用户的种类 369
14.2.2 他们需要什么 372
14.2.3 怎样为用户提供信息 376
14.3 信息传递机制 377
14.3.1 查询 379
14.3.2 报表 381
14.3.3 分析 382
14.4.4 应用程序 383
14.5 信息传递工具 384
14.5.1 桌面电脑环境 384
14.5.2 工具选择的方法学 385
14.5.3 选择工具的标准 389
14.5.4 信息传递框架 390
本章小结 391
复习思考题 392
练习题 393
第15章 数据仓库中的联机分析处理 OLAP 394
本章目标 394
15.1 联机分析处理的要求 395
15.1.1 对多维分析的需要 395
15.1.2 快速的访问和强大的计算能力 397
15.1.3 其他分析方法的局限性 399
15.1.4 联机分析处理(OLAP)是用户需要的答案 401
15.1.5 OLAP的定义和规则 403
15.1.6 OLAP的特征 405
15.2 主要的特征和功能 406
15.2.1 一般特征 406
15.2.2 维度分析 407
15.2.3 什么是超立方体 411
15.2.4 下钻和概括化的操作 416
15.2.5 多层次/多视角查看或旋转的操作 418
15.2.6 OLAP的使用和好处 419
15.3 OLAP模型 419
15.3.1 变种的概述 420
15.3.2 MOLAP模型 421
15.3.3 ROLAP模型 422
15.3.4 ROLAP与MOLAP 423
15.4 OLAP实施的考虑事项 424
15.4.1 数据设计和准备 425
15.4.2 管理和性能 428
15.4.3 OLAP平台 429
15.4.4 OLAP工具和产品 430
15.4.5 实施步骤 431
本章小结 432
复习思考题 432
练习题 433
第16章 数据仓库和Web 434
本章目标 434
16.1 支持Web的数据仓库 435
16.1.1 为什么是Web 436
16.1.2 技术的结合 438
16.1.3 调整数据仓库以支持Web 439
16.1.4 作为数据源的Web 440
16.2 基于Web的信息传递机制 441
16.2.1 扩展了的数据仓库的使用 442
16.2.2 新的信息策略 444
16.2.3 数据仓库的浏览器技术 447
16.2.4 安全问题 449
16.3 OLAP和Web 450
16.3.1 企业OLAP 450
16.3.2 Web-OLAP方法 451
16.3.3 OLAP引擎的设计 451
16.4 建立支持Web的数据仓库 452
16.4.1 数据网络仓库的性质 453
16.4.2 对如何实现数据网络仓库的考虑 455
16.4.3 将组件放在一起 456
16.4.4 Web处理模型 457
本章小结 458
复习思考题 459
练习题 459
第17章 数据挖掘基础 461
本章目标 461
17.1 数据挖掘是什么 462
17.1.1 定义数据挖掘 463
17.1.2 知识发现过程 465
17.1.3 OLAP 和数据挖掘 468
17.1.4 数据挖掘和数据仓库 470
17.2 主要的数据挖掘技术 472
17.2.1 聚簇检测(cluster detection) 473
17.2.2 决策树 476
17.2.3 基于记忆的推理 478
17.2.4 关联分析 479
17.2.5 神经网络 482
17.2.6 遗传算法 484
17.2.7 进入数据挖掘 486
17.3 数据挖掘的应用 489
17.3.1 数据挖掘的收益 490
17.3.2 在零售业的应用 491
17.3.3 在电信行业中的应用 492
17.3.4 在银行和金融业的应用 493
本章小结 493
复习思考题 494
练习题 494
第18章 物理设计过程 496
本章目标 496
18.1 物理设计步骤 497
18.1.1 建立标准 497
18.1.2 建立聚集计划 498
18.1.3 确定数据分区方案 498
18.1.4 建立聚簇选项 499
18.1.5 准备索引策略 499
18.1.6 安排存储结构 500
18.1.7 完成物理建模 500
18.2 物理设计考虑的因素 500
18.2.1 物理设计目标 501
18.2.2 从逻辑模型到物理模型 502
18.2.3 物理模型的组成 503
18.2.4 标准的意义 505
18.3 物理存储 507
18.3.1 存储区数据结构 508
18.3.2 优化存储 508
18.3.3 使用RAID技术 511
18.3.4 估计存储容量 512
18.4 为数据仓库建立索引 513
18.4.1 索引一览 513
18.4.2 B-Tree索引 515
18.4.3 位图索引 516
18.4.4 簇索引 518
18.4.5 为事实表建立索引 518
18.4.6 为维度表建立索引 519
18.5 提高性能的技术 519
18.5.1 数据分区 520
18.5.2 数据聚簇 521
18.5.3 并行查询 521
18.5.4 汇总级别 522
18.5.5 参考完整性检查 522
18.5.6 初始化参数 522
18.5.7 数据阵列 523
本章小结 523
复习思考题 524
练习题 524
第19章 数据仓库部署 526
本章目标 526
19.1 部署的主要任务 527
19.1.1 完成用户认可 527
19.1.2 执行初始装载 528
19.1.3 准备好用户桌面 530
19.1.4 完成初始用户培训 530
19.1.5 建立最初用户支持 531
19.1.6 按阶段部署 532
19.2 领航系统 533
19.2.1 领航数据集市什么时候有用 534
19.2.2 领航系统的类型 535
19.2.3 选择领航系统 537
19.2.4 扩展和集成领航系统 539
19.3 安全 539
19.3.1 安全政策 540
19.3.2 管理用户权限 541
19.3.3 密码 542
19.3.4 安全工具 542
19.4 备份和恢复 543
19.4.1 为什么要备份数据仓库 543
19.4.2 备份策略 544
19.4.3 建立一个实际的日程表 545
19.4.4 恢复 546
本章小结 547
复习思考题 548
练习题 548
第20章 升级和维护 550
本章目标 550
20.1 监视数据仓库 551
20.1.1 统计数据收集 552
20.1.2 为升级划使用统计数据 553
20.1.3 为优化使用统计数据 554
20.1.4 向用户公布趋势 554
20.2 用户培训和支持 555
20.2.1 用户培训内容 555
20.2.2 准备培训计划 557
20.2. 3 执行培训计划 558
20.2.4 用户支持 559
20.3 管理数据仓库 561
20.3.1 平台升级 561
20.3.2 数据增长管理 562
20.3.3 存储管理 562
20.3.4 ETL管理 563
20.3.5 数据模型修订 564
20.3.6 信息传递增强 564
20.3.7 持续的优化 565
本章小结 565
复习思考题 566
练习题 566
附录A 项目生存期步骤和列表 567
附录B 成功的关键因素 571
附录C 评估供应商解决方案的指南 572
本章目标 1
1.1 对战略信息的不断增长的需求 2
1.1.1 信息危机 4
1.1.2 技术趋势 5
1.1.3 机遇和风险 6
1.2 以往的决策支持系统的失败 8
1.2.1 决策支持系统的历史 9
1.2.2 缺乏提供战略信息的能力 10
1.3 操作型系统和决策支持系统 11
1.3.1 使商业运作起来 11
1.3.2 监视商业的运作 12
1.3.3 不同的范围, 不同的目的 12
1.4 数据仓库——惟一可行的解决方案 13
1.4.1 一种新类型的系统环境 13
1.4.2 新环境下的需求处理 14
1.4.3 数据仓库的商业智能 14
1.5 数据仓库的定义 15
1.5.1 数据仓库是信息传递的一种简单概念 15
1.5.2 数据仓库是一种环境, 而不是产品 16
1.5.3 数据仓库是多种技术的混合体 16
本章小结 17
复习思考题 18
练习题 18
第2章 数据仓库的组成部分 20
本章目标 20
2.1 定义的特点 21
2.1.1 面向主题的数据 21
2.1.2 综合的数据 22
2.1.3 数据的时间特性 24
2.1.4 数据的非易变性 24
2.1.5 数据粒度 26
2.2 数据仓库和数据集市 27
2.2.1 它们有什么不同 27
2.2.2 自上而下和自下而上的方法 28
2.2.3 一个实用的方法 29
2.3 数据仓库的组成部分 30
2.3.1 源数据部分 31
2.3.2 数据准备部分 34
2.3.3 数据存储部分 37
2.3.4 信息传递部分 37
2.3.5 元数据部分 38
2.3.6 管理和控制部分 39
2.4 数据仓库中的元数据 39
2.4.1 元数据的类型 39
2.4.2 元数据的特殊意义 40
本章小结 41
复习思考题 41
练习题 42
第3章 数据仓库的发展趋势 43
本章目标 43
3.1 数据仓库的持续成长 44
3.1.1 数据仓库正在成为主流 44
3.1.2 数据仓库的扩张 45
3.1.3 解决方案和产品 46
3.2 重要趋势 48
3.2.1 多种数据类型 48
3.2.2 数据可视化 51
3.2.3 并行处理 53
3.2.4 查询工具 55
3.2.5 浏览工具 55
3.2.6 数据融合 56
3.2.7 多维分析 56
3.2.8 代理技术 57
3.2.9 企业组合数据 57
3.2.10 数据仓库和ERP 58
3.2.11 数据仓库和知识管理 59
3.2.12 数据仓库和CRM 60
3.2.13 活跃的数据仓库 62
3.3 标准的出现 62
3.3.1 元数据 63
3.3.2 OLAP 64
3.4 支持Web的数据仓库 65
3.4.1 将数据仓库放入Web中 65
3.4.2 将Web技术引入数据仓库 66
3.4.3 支持Web技术的配置 67
本章小结 68
复习思考题 68
练习题 69
第4章 规划和项目管理 70
本章目标 70
4.1 规划你的数据仓库 71
4.1.1 关键问题 71
4.1.2 商业需求, 而非技术 74
4.1.3 高层管理的支持 75
4.1.4 数据仓库的可行性分析 75
4.1.5 全盘计划 77
4.2 数据仓库项目 77
4.2.1 有什么不同 78
4.2.2 准备情况的评估 79
4.2.3 生命周期方法 80
4.2.4 开发的各阶段 82
4.3 项目团队 83
4.3.1 组织项目团队 83
4.3.2 角色和责任 84
4.3.3 技能和经验水平 87
4.3.4 用户参与 88
4.4 项目管理要素 89
4.4.1 项目管理的指导原则 90
4.4.2 警告征兆 91
4.4.3 成功的因素 92
4.4.4 成功项目细审 93
4.4.5 采用实用的方法 94
本章小结 95
复习思考题 96
练习题 96
第5章 定义商业需求 98
本章目标 98
5.1 维度分析 98
5.1.1 对不可预知的信息的使用 99
5.1.2 商业数据的维度 99
5.1.3 商业维度的例子 101
5.2 信息包——一个新概念 102
5.2.1 不完全确定的需求 102
5.2.2 商业维度 104
5.2.3 维度层次和分类 104
5.2.5 关键商业指标或事实 106
5.3 收集需求的方法 108
5.3.1 采访技巧 109
5.3.2 调整联合应用程序设计方法 111
5.3.3 回顾已有的文档 113
5.4 需求定义:范围和内容 114
5.4.1 数据源 115
5.4.2 数据转换 115
5.4.3 数据存储 116
5.4.4 信息传递 116
5.4.5 信息包表 116
5.4.6 需求定义文档提纲 116
本章小结 117
复习思考题 117
练习题 118
第6章 需求——数据仓库的驱动力 120
本章目标 120
6.1 数据设计 121
6.1.1 商业维度的结构 123
6.1.2 关键衡量指标的结构 124
6.1.3 细节层次 124
6.2 体系结构规划 125
6.2.1 组成部分的构成 126
6.2.2 特殊因素 127
6.2.3 工具和产品 130
6.3 数据存储规范 132
6.3.1 数据库管理系统的选择 133
6.3.2 存储规模估计 134
6.4 信息传递策略 135
6.4.1 查询和报表 136
6.4.2 分析的类型 137
6.4.3 信息分发 137
6.4.4 决策支持应用程序 137
6.4.5 发展和扩大 138
本章小结 138
复习思考题 138
练习题 139
第7章 体系结构及其组成部分 141
本章目标 141
7.1掌握数据仓库的体系结构 141
7.1.1 体系结构:定义 141
7.1.2 三个主要区域的体系结构 142
7.2 区别于其他结构的特点 143
7.2.1 不同的目标和范围 144
7.2.2 数据内容 145
7.2.3 复杂分析和快速响应 145
7.2.4 灵活性和动态性 146
7.2.5 元数据驱动 146
7.3 体系结构框架 147
7.3.1 支持数据流的体系结构 147
7.3.2 管理和控制模块 148
7.4 技术体系结构 149
7.4.1 数据获取 151
7.4.2 数据存储 154
7.4.3 信息传递 156
本章小结 158
复习思考题 159
练习题 159
第8章 数据仓库的基础构造 161
本章目标 161
8.1 支持体系结构的基础构造 161
8.1.1 操作型基础构造 163
8.1.2 物理基础构造 163
8.2 硬件和操作系统 165
8.2.1 平台选择 166
8.2.2 服务器硬件 178
8.3 数据库软件 183
8.3.1 并行处理方案 184
8.3.2 数据库管理系统的选择 186
8.4 工具收集 187
8.4.1 先设计好体系结构, 再选择工具 188
8.4.2 数据建模 189
8.4.3 数据抽取 189
8.4.4 数据转换 189
8.4.5 数据装载 190
8.4.6 数据质量 190
8.4.7 查询和报表 190
8.4.8 联机分析处理(OLAP) 190
8.4.9 预警系统 191
8.4.10 中间件及连接部件 191
8.4.11 数据仓库管理 191
本章小结 191
复习思考题 192
练习题 192
第9章 元数据的重要角色 194
本章目标 194
9.1 元数据的重要性 194
9.1.1 数据仓库的关键需求 196
9.1.2 为什么元数据对最终用户很关键 200
9.1.3 为什么元数据对IT人员很关键 201
9.1.4 数据仓库任务自动化 203
9.1.5 建立信息上下文 205
9.2 按功能区域划分的元数据类型 206
9.2.1 数据获取 207
9.2.2 数据存储 208
9.2.3 信息传递 210
9.3 商业元数据 211
9.3.1 内容总揽 211
9.3.2 商业元数据举例 212
9.3.3 内容重点 213
9.3.4 谁会受益 213
9.4 技术元数据 214
9.4.1 内容总揽 214
9.4.2 技术元数据举例 214
9.4.3 内容重点 216
9.4.4 谁会受益 216
9.5 如何提供元数据 217
9.5.1 元数据需求 218
9.5.2 元数据的来源 219
9.5.3 元数据管理面临的挑战 221
9.5.4 元数据储存库 222
9.5.5 元数据集成与标准 224
9.5.6 实施选项 224
本章小结 226
复习思考题 227
练习题 227
第10章 维度建模的原则 229
本章目标 229
10.1 从需求到数据设计 229
10.1.1 设计决策 230
10.1.2 维度建模基础 230
10.1.3 E-R建模与维度建模的对比 235
10.1.4 使用CASE工具 236
10.2 星型模式 237
10.2.1 一个简单的星型模式的回顾 237
10.2.2 维度表的内容 240
10.2.3 事实表的内容 242
10.2.4 不含事实的事实表 244
10.2.5 数据粒度 245
10.3 星型模式的键 246
10.3.1 主键 246
10.3.2 替代键 247
10.3.3 外键 248
10.4 星型模式的优势 248
10.4.1 用户容易理解 249
10.4.2 优化浏览 250
10.4.3 最适于查询处理 251
10.4.4 星型连接和星型索引 252
本章小结 252
复习思考题 253
练习题 253
第11章 维度建模:高级专题 255
本章目标 255
11.1 维度表的更新 256
11.1.1慢速变化中的维度 256
11.1.2 第1类修改:改正错误 257
11.1.3 第2类修改:保存历史数据 259
11.1.4 第3类修改:暂时的(软性的)修改 260
11.2 各式各样的维度 262
11.2.1 大维度 263
11.2.2 快速变化中的维度 264
11.2.3 废弃维度 266
11.3 雪花型模式 267
11.3.1 规范化选项 268
11.3.2 优势与劣势 269
11.3.3 什么时候使用雪花型模式 270
11.4 聚集事实表 271
11.4.1 事实表的大小 273
11.4.2 对聚集的需求 275
11.4.3 对事实表进行聚集 275
11.4.4 聚集的选项 281
11.5 星型模式族 283
11.5.1 快照表和事务表 284
11.5.2 核心表和定制表 285
11.5.3 支持企业价值链或者价值环 286
11.5.4 使维度一致 287
11.5.5 将事实表标准化 288
11.5.6 星型模式族小结 289
本章小结 290
复习思考题 290
练习题 291
第12章 数据抽取. 转换和装载 292
本章目标 292
12.1 ETL概览 293
12.1.1 最重要和最具有挑战性 294
12.1.2 耗时而且费劲 295
12.1.3 ETL的需求和步骤 296
12.1.4 关键因素 297
12.2 数据抽取 298
12.2.1 数据源确认 299
12.2.2 数据抽取技术 300
12.2.3 技术的评估 307
12.3 数据转换 309
12.3.1 数据转换:基本任务 310
12.3.2 主要转换类型 311
12.3.4 数据整合和合并 313
12.3.5 维度属性的转换 315
12.3.6 如何实施转换 316
12.4 数据装载 318
12.4.1 应用数据:技术和过程 319
12.4.2 数据的刷新和更新 322
12.4.3 维度表的规程 323
12.4.4 事实表:历史与增量的装载 324
12.5 ETL总结 325
12.5.1 ETL工具选项 326
12.5.2 再次强调ETL中的元数据(Metadata) 327
12.5.3 ETL的总结和方法 328
本章小结 329
复习思考题 330
练习题 330
第13章 数据质量:成功的关键 332
本章目标 332
13.1 为什么数据质量如此重要 333
13.1.1 什么是数据质量 334
13.1.2 提高数据质量的好处 337
13.1.3 数据质量问题的类型 338
13.2 数据质量的挑战 341
13.2.1 数据污染的来源 342
13.2.2 姓名和地址的有效性 344
13.2.3 数据质量低劣带来的代价 345
13.3 数据质量工具 346
13.3.1 数据清洗工具的分类 346
13.3.2 错误发现特性 346
13.3.3 数据修正特性 347
13.3.4 数据库管理系统的质量控制 347
13.4 确保数据质量的第一步 348
13.4.1 数据清洗的决策 349
13.4.2 谁应该负责 352
13.4.3 净化过程 353
13.4.4 对数据质量的实用建议 355
本章小结 356
复习思考题 356
练习题 357
第14章 信息和用户类型之间的匹配 359
本章目标 359
14.1 来自于数据仓库的信息 360
14.1.1 数据仓库和操作型系统 360
14.1.2 信息潜力 362
14.1.3 用户—信息接口 366
14.1.4 行业应用 368
14.2 谁将使用这些信息 368
14.2.1 用户的种类 369
14.2.2 他们需要什么 372
14.2.3 怎样为用户提供信息 376
14.3 信息传递机制 377
14.3.1 查询 379
14.3.2 报表 381
14.3.3 分析 382
14.4.4 应用程序 383
14.5 信息传递工具 384
14.5.1 桌面电脑环境 384
14.5.2 工具选择的方法学 385
14.5.3 选择工具的标准 389
14.5.4 信息传递框架 390
本章小结 391
复习思考题 392
练习题 393
第15章 数据仓库中的联机分析处理 OLAP 394
本章目标 394
15.1 联机分析处理的要求 395
15.1.1 对多维分析的需要 395
15.1.2 快速的访问和强大的计算能力 397
15.1.3 其他分析方法的局限性 399
15.1.4 联机分析处理(OLAP)是用户需要的答案 401
15.1.5 OLAP的定义和规则 403
15.1.6 OLAP的特征 405
15.2 主要的特征和功能 406
15.2.1 一般特征 406
15.2.2 维度分析 407
15.2.3 什么是超立方体 411
15.2.4 下钻和概括化的操作 416
15.2.5 多层次/多视角查看或旋转的操作 418
15.2.6 OLAP的使用和好处 419
15.3 OLAP模型 419
15.3.1 变种的概述 420
15.3.2 MOLAP模型 421
15.3.3 ROLAP模型 422
15.3.4 ROLAP与MOLAP 423
15.4 OLAP实施的考虑事项 424
15.4.1 数据设计和准备 425
15.4.2 管理和性能 428
15.4.3 OLAP平台 429
15.4.4 OLAP工具和产品 430
15.4.5 实施步骤 431
本章小结 432
复习思考题 432
练习题 433
第16章 数据仓库和Web 434
本章目标 434
16.1 支持Web的数据仓库 435
16.1.1 为什么是Web 436
16.1.2 技术的结合 438
16.1.3 调整数据仓库以支持Web 439
16.1.4 作为数据源的Web 440
16.2 基于Web的信息传递机制 441
16.2.1 扩展了的数据仓库的使用 442
16.2.2 新的信息策略 444
16.2.3 数据仓库的浏览器技术 447
16.2.4 安全问题 449
16.3 OLAP和Web 450
16.3.1 企业OLAP 450
16.3.2 Web-OLAP方法 451
16.3.3 OLAP引擎的设计 451
16.4 建立支持Web的数据仓库 452
16.4.1 数据网络仓库的性质 453
16.4.2 对如何实现数据网络仓库的考虑 455
16.4.3 将组件放在一起 456
16.4.4 Web处理模型 457
本章小结 458
复习思考题 459
练习题 459
第17章 数据挖掘基础 461
本章目标 461
17.1 数据挖掘是什么 462
17.1.1 定义数据挖掘 463
17.1.2 知识发现过程 465
17.1.3 OLAP 和数据挖掘 468
17.1.4 数据挖掘和数据仓库 470
17.2 主要的数据挖掘技术 472
17.2.1 聚簇检测(cluster detection) 473
17.2.2 决策树 476
17.2.3 基于记忆的推理 478
17.2.4 关联分析 479
17.2.5 神经网络 482
17.2.6 遗传算法 484
17.2.7 进入数据挖掘 486
17.3 数据挖掘的应用 489
17.3.1 数据挖掘的收益 490
17.3.2 在零售业的应用 491
17.3.3 在电信行业中的应用 492
17.3.4 在银行和金融业的应用 493
本章小结 493
复习思考题 494
练习题 494
第18章 物理设计过程 496
本章目标 496
18.1 物理设计步骤 497
18.1.1 建立标准 497
18.1.2 建立聚集计划 498
18.1.3 确定数据分区方案 498
18.1.4 建立聚簇选项 499
18.1.5 准备索引策略 499
18.1.6 安排存储结构 500
18.1.7 完成物理建模 500
18.2 物理设计考虑的因素 500
18.2.1 物理设计目标 501
18.2.2 从逻辑模型到物理模型 502
18.2.3 物理模型的组成 503
18.2.4 标准的意义 505
18.3 物理存储 507
18.3.1 存储区数据结构 508
18.3.2 优化存储 508
18.3.3 使用RAID技术 511
18.3.4 估计存储容量 512
18.4 为数据仓库建立索引 513
18.4.1 索引一览 513
18.4.2 B-Tree索引 515
18.4.3 位图索引 516
18.4.4 簇索引 518
18.4.5 为事实表建立索引 518
18.4.6 为维度表建立索引 519
18.5 提高性能的技术 519
18.5.1 数据分区 520
18.5.2 数据聚簇 521
18.5.3 并行查询 521
18.5.4 汇总级别 522
18.5.5 参考完整性检查 522
18.5.6 初始化参数 522
18.5.7 数据阵列 523
本章小结 523
复习思考题 524
练习题 524
第19章 数据仓库部署 526
本章目标 526
19.1 部署的主要任务 527
19.1.1 完成用户认可 527
19.1.2 执行初始装载 528
19.1.3 准备好用户桌面 530
19.1.4 完成初始用户培训 530
19.1.5 建立最初用户支持 531
19.1.6 按阶段部署 532
19.2 领航系统 533
19.2.1 领航数据集市什么时候有用 534
19.2.2 领航系统的类型 535
19.2.3 选择领航系统 537
19.2.4 扩展和集成领航系统 539
19.3 安全 539
19.3.1 安全政策 540
19.3.2 管理用户权限 541
19.3.3 密码 542
19.3.4 安全工具 542
19.4 备份和恢复 543
19.4.1 为什么要备份数据仓库 543
19.4.2 备份策略 544
19.4.3 建立一个实际的日程表 545
19.4.4 恢复 546
本章小结 547
复习思考题 548
练习题 548
第20章 升级和维护 550
本章目标 550
20.1 监视数据仓库 551
20.1.1 统计数据收集 552
20.1.2 为升级划使用统计数据 553
20.1.3 为优化使用统计数据 554
20.1.4 向用户公布趋势 554
20.2 用户培训和支持 555
20.2.1 用户培训内容 555
20.2.2 准备培训计划 557
20.2. 3 执行培训计划 558
20.2.4 用户支持 559
20.3 管理数据仓库 561
20.3.1 平台升级 561
20.3.2 数据增长管理 562
20.3.3 存储管理 562
20.3.4 ETL管理 563
20.3.5 数据模型修订 564
20.3.6 信息传递增强 564
20.3.7 持续的优化 565
本章小结 565
复习思考题 566
练习题 566
附录A 项目生存期步骤和列表 567
附录B 成功的关键因素 571
附录C 评估供应商解决方案的指南 572
猜您喜欢