大数据湖最佳实践
作者:Alex Gorelik
出版社:中国电力出版社
出版时间:2020-07-01
ISBN:9787519845902
定价:¥68.00
前言 1
第1 章 数据湖概述 7
数据湖的成熟度 9
数据水洼 11
数据池 12
创建成功的数据湖 12
适合的平台 13
适合的数据 14
适合的界面 16
数据沼泽 18
成功实施数据湖的路线图 20
建立数据湖 20
规划数据湖 21
构建自助服务的数据湖 23
构建数据湖 28
云上数据湖 29
逻辑数据湖 29
小结 34
第2 章 历史背景 35
数据自助服务驱动——数据库的诞生 36
分析必要性驱动——数据仓库的诞生 39
数据仓库生态系统 40
存储和查询数据 41
加载数据——数据集成工具 47
组织和管理数据 51
消费数据 57
小结 58
第3 章 大数据和数据科学概述 59
Hadoop 引领大数据的历史性转变 60
Hadoop 文件系统 60
MapReduce 作业中计算和存储如何交互 61
Schema on Read 63
Hadoop 项目 64
数据科学 65
你的分析机构应该关注什么? 67
机器学习 71
可解释性 72
变更管理 73
小结 74
第4 章 建立数据湖 75
为什么是Hadoop 75
防止数据水洼扩散 78
利用大数据的优势 79
以数据科学为先导 80
策略1: 迁移已有功能 83
策略2: 为新项目建立数据湖 85
策略3: 建立数据治理中心 85
哪种策略最适合你? 86
小结 88
第5 章 从数据池/ 大数据仓库到数据湖 89
数据仓库的基本功能 90
用于分析的维度模型 91
整合不同源的数据 92
使用缓慢变化维保存历史记录 93
数据仓库作为历史库的局限性 93
迁移至数据池 94
数据池中保存历史数据 94
在数据池中使用缓慢变化维 96
数据池演化为数据湖——加载数据仓库中未包含的数据 98
原始数据 98
外部数据 99
IoT 与其他流式数据 102
实时数据湖 103
Lambda 架构 105
数据转换 106
目标系统 108
数据仓库 109
业务数据存储 109
实时应用和数据产品 110
小结 111
第6 章 自助服务优化 112
自助服务起源 113
业务分析师 115
发现和理解数据——企业数据归档 116
建立信任 119
数据预置 126
为分析准备数据 128
数据湖数据整理 129
用Hadoop 来准备数据 129
数据预处理的常见案例 130
分析和可视化 133
自助式商业智能的新世界 133
新的分析工作流 134
门卫向店主的角色转变 136
管理自助服务 137
小结 137
第7 章 数据湖架构 139
规划数据湖 139
原始区 141
产品区 142
工作区 144
敏感区 145
多数据湖 146
保持各数据湖独立的优势 147
合并多数据湖的优势 147
云上数据湖 148
虚拟数据湖 151
数据联邦 151
大数据虚拟化 152
消除冗余 154
小结 156
第8 章 数据湖元数据 157
组织数据 157
技术元数据 159
业务元数据 164
打标 166
自动编目 167
逻辑数据管理 169
敏感数据管理和访问控制 169
数据质量 170
连接分散的数据 172
建立血缘关系 174
数据预置 176
创建目录的工具 176
工具对比 177
数据洋 178
小结 179
第9 章 数据访问控制 180
授权与访问控制 181
基于标签的控制策略 182
数据脱敏 186
数据主权与法规 189
自助服务访问管理 191
预置数据 196
小结 204
第10 章 行业案例 205
金融服务大数据 206
消费者、数字化和数据正在改变我们所熟知的金融行业 206
拯救银行 208
新数据提供新机遇 212
使用数据湖的关键过程 215
数据湖为金融服务领域带来的价值 218
保险行业中的数据湖 220
智慧城市 222
医疗大数据 224
作者介绍 227
封面介绍 227