书籍详情

大数据技术

大数据技术

作者:华为技术有限公司 著

出版社:人民邮电出版社

出版时间:2021-06-01

ISBN:9787115556073

定价:¥69.80

购买这本书可以去
内容简介
  本书系统、全面地介绍大数据技术的基础知识。全书共13章,首先介绍大数据行业与技术趋势;然后介绍大数据生态圈的各项技术,包括分布式文件系统、Hive分布式数据仓库、HBase技术原理、MapReduce和YARN技术原理、Spark基于内存的分布式计算、Flink流批一体分布式实时处理引擎、数据采集与数据装载工具、Kafka分布式消息订阅系统、高可靠集群安全模式、分布式全文检索Elasticsearch、Redis内存数据库等;最后介绍华为大数据解决方案。通过学习本书所讲内容,读者可以整体了解大数据技术,掌握大数据生态圈中各项技术最为基础和关键的知识。本书可作为数据科学与大数据、软件工程、计算机科学与技术等专业的大数据概论课程的教材,也可供大数据工程技术人员学习或参考使用,还可作为华为HCIA认证考试的培训教材。
作者简介
  华为技术有限公司:成立于1987年,总部位于广东省深圳市龙岗区。华为是全球领先的信息与通信技术(ICT)解决方案供应商,专注于ICT领域,在电信运营商、企业、终端和云计算等领域构筑了端到端的解决方案优势,为运营商客户、企业客户和消费者提供有竞争力的ICT解决方案、产品和服务,并致力于实现未来信息社会、构建更美好的全联接世界。2013年,华为首超全球第一大电信设备商爱立信,排名《财富》世界500强第315位。华为的产品和解决方案已经应用于全球170多个国家,服务全球运营商50强中的45家及全球1/3的人口。
目录
第 1章 大数据行业与技术趋势\t1
1.1 大数据时代 1
1.1.1 大数据的定义 1
1.1.2 大数据分析与传统数据分析 2
1.1.3 大数据时代已经到来 7
1.2 大数据应用领域 8
1.3 大数据时代企业所面临的挑战和机遇 9
1.3.1 大数据时代企业所面临的挑战 9
1.3.2 大数据时代企业所面临的机遇 10
1.4 大数据代表技术和解决方案 11
1.4.1 大数据代表技术 11
1.4.2 大数据解决方案 16
1.5 本章小结 17
1.6 习题 17
第 2章 分布式文件系统 18
2.1 文件系统概述 18
2.2 HDFS架构 20
2.2.1 HDFS体系结构 21
2.2.2 HDFS中的数据流 23
2.3 HDFS关键特性 26
2.3.1 HDFS高可用性 26
2.3.2 HDFS元数据持久化 28
2.3.3 HDFS联邦 28
2.3.4 HDFS视图文件系统 29
2.3.5 HDFS机架感知策略 30
2.3.6 HDFS集中式缓存管理 31
2.3.7 配置HDFS数据存储策略 32
2.3.8 HDFS同分布 33
2.4 HDFS操作 34
2.4.1 使用命令行访问HDFS 34
2.4.2 使用Java API访问HDFS 36
2.5 ZooKeeper 40
2.5.1 ZooKeeper体系结构 40
2.5.2 ZooKeeper读/写机制 41
2.5.3 ZooKeeper关键特性 42
2.5.4 ZooKeeper命令行操作 42
2.6 本章小结 42
2.7 习题 43
第3章 Hive分布式数据仓库 44
3.1 数据仓库 44
3.1.1 数据仓库的定义 44
3.1.2 数据仓库和数据库的区别 44
3.1.3 数据仓库的系统结构 45
3.2 Hive概述和体系结构 46
3.2.1 Hive概述 46
3.2.2 Hive的体系结构 46
3.2.3 Hive与传统数据仓库 48
3.2.4 Hive数据存储模型 49
3.3 Hive基本操作 50
3.3.1 Hive数据基本操作 50
3.3.2 用户自定义函数 57
3.3.3 Hive数据压缩与文件存储格式 58
3.4 Hive增强特性 60
3.4.1 支持HDFS同分布 60
3.4.2 支持列加密功能 61
3.4.3 支持HBase删除功能 61
3.4.4 指定行分隔符 61
3.4.5 其他增强特性 62
3.5 本章小结 62
3.6 习题 63
第4章 HBase技术原理 64
4.1 NoSQL数据库 64
4.2 HBase概述与基本架构 66
4.2.1 HBase概述 66
4.2.2 HBase数据模型 67
4.2.3 HBase架构 68
4.2.4 HBase关键流程 70
4.3 HBase基本操作 75
4.3.1 HBase性能优化 75
4.3.2 HBase常用操作 77
4.3.3 HBase Java API操作 79
4.4 HBase增强特性 82
4.4.1 支持二级索引 82
4.4.2 二级索引行键去除padding 83
4.4.3 支持多点分割 83
4.4.4 容灾增强 83
4.4.5 HBase MOB 84
4.4.6 HFS 84
4.5 本章小结 85
4.6 习题 85
第5章 MapReduce和YARN技术原理 86
5.1 MapReduce和YARN基本介绍 86
5.1.1 MapReduce基本介绍 86
5.1.2 YARN基本介绍 87
5.2 MapReduce和YARN的功能与架构 87
5.2.1 MapReduce过程详解 87
5.2.2 经典MapReduce任务调度模型 89
5.2.3 YARN的组件架构 90
5.2.4 MapReduce On YARN 91
5.2.5 YARN 容错机制 92
5.3 YARN的资源隔离和调度 92
5.3.1 YARN资源隔离 92
5.3.2 YARN资源调度 94
5.3.3 抢占与延时调度 97
5.3.4 YARN参数配置 98
5.4 MapReduce和YARN增强特性 103
5.4.1 任务优先级调度 103
5.4.2 提交Application可设置超时参数 104
5.4.3 YARN的权限控制 104
5.4.4 支持CPU硬隔离 105
5.4.5 重启性能优化 105
5.5 MapReduce实例 106
5.5.1 Top10视频分析 106
5.5.2 视频类别统计 108
5.6 本章小结 109
5.7 习题 109
第6章 Spark基于内存的分布式计算 110
6.1 Spark简介 110
6.1.1 Spark概念 110
6.1.2 Spark架构 111
6.1.3 Spark核心组件 112
6.2 Spark编程模型 114
6.2.1 核心数据结构RDD 114
6.2.2 RDD上的操作 114
6.2.3 RDD的持久化 115
6.2.4 RDD计算工作流 115
6.3 Spark调度机制 116
6.3.1 Spark应用执行流程 116
6.3.2 Spark调度与任务分配 117
6.4 Spark生态圈其他技术 120
6.4.1 Spark SQL 120
6.4.2 Spark Streaming 123
6.5 Spark应用案例 127
6.5.1 Spark Shell 127
6.5.2 WordCount 129
6.6 本章小结 130
6.7 习题 130
第7章 Flink流批一体分布式实时处理引擎 131
7.1 Flink概述 131
7.1.1 Flink的特点 131
7.1.2 Flink的应用场景 133
7.2 Flink原理和架构 133
7.2.1 Flink主要组件 133
7.2.2 Flink的插槽和并行度 134
7.3 Flink部署 136
7.3.1 Standalone部署 137
7.3.2 Flink on YARN部署 139
7.4 Flink时间处理 141
7.4.1 时间语义 141
7.4.2 窗口 142
7.4.3 Watermark 144
7.4.4 延迟处理 145
7.5 Flink的容错机制 146
7.5.1 常用State 146
7.5.2 Checkpoint 148
7.5.3 State Backend 150
7.6 Flink应用案例 152
7.7 本章小结 153
7.8 习题 153
第8章 数据采集与数据装载工具 154
8.1 Flume简介及结构 154
8.1.1 Flume定义 154
8.1.2 Flume组成架构 155
8.1.3 Flume拓扑结构 158
8.2 Flume关键特性 160
8.2.1 Source 160
8.2.2 Sink 163
8.2.3 Channel、拦截器与处理器 165
8.3 Flume的安装与配置 166
8.4 数据装载工具Loader 168
8.4.1 Loader简介 168
8.4.2 Loader模块架构 169
8.4.3 Loader作业管理 170
8.4.4 监控作业执行状态 172
8.5 本章小结 173
8.6 习题 173
第9章 Kafka分布式消息订阅系统 175
9.1 Kafka简介 175
9.1.1 Kafka概念 175
9.1.2 Kafka结构 175
9.1.3 Kafka消息传递模式 176
9.1.4 Kafka特点 176
9.2 Kafka组成 178
9.2.1 Kafka组成的概念 178
9.2.2 Kafka组成的功能 179
9.3 Kafka关键流程及数据管理 181
9.3.1 Kafka生产过程分析 181
9.3.2 Broker保存消息 182
9.3.3 Kafka消费过程分析 183
9.3.4 Kafka高可用 184
9.3.5 旧数据处理方式 184
9.4 Kafka应用案例 185
消息队列的应用场景 185
9.5 本章小结 189
9.6 习题 189
第 10章 高可靠集群安全模式 190
10.1 统一身份认证管理 190
10.1.1 统一身份认证 190
10.1.2 统一用户管理系统 191
10.2 目录服务和轻型目录访问协议 192
10.2.1 目录服务 192
10.2.2 轻型目录访问协议 193
10.2.3 LdapServer 194
10.2.4 LdapServer集成设计 198
10.2.5 LdapServer应用优势 198
10.3 单点登录及Kerberos基本原理 199
10.3.1 单点登录 199
10.3.2 KrbServer 201
10.3.3 KrbServer认证流程 202
10.4 华为大数据安全认证场景架构 204
10.4.1 安全认证场景架构 204
10.4.2 Kerberos与LdapServer的业务交互 205
10.4.3 常用配置项及命令 206
10.4.4 集群内服务认证 207
10.5 本章小结 207
10.6 习题 208
第 11章 分布式全文检索Elasticsearch 209
11.1 Elasticsearch简介 209
11.1.1 Elasticsearch特点 209
11.1.2 Elasticsearch应用场景 210
11.1.3 Elasticsearch在大数据解决方案中的位置 210
11.2 Elasticsearch架构 211
11.2.1 Elasticsearch核心概念 211
11.2.2 Elasticsearch集群架构 213
11.2.3 Elasticsearch内部架构 213
11.3 Elasticsearch关键特性 215
11.3.1 倒排序索引 215
11.3.2 路由算法 216
11.3.3 平衡算法 217
11.3.4 扩容策略 218
11.3.5 减容策略 218
11.3.6 索引HBase数据 219
11.3.7 单机多实例部署 219
11.3.8 分片自动跨节点分配策略 220
11.4 本章小结 221
11.5 习题 222
第 12章 Redis内存数据库 223
12.1 Redis简介 223
12.2 Redis架构 225
12.2.1 Redis架构概述 225
12.2.2 Redis架构设计 225
12.2.3 单线程架构 225
12.2.4 集群环境读/写流程分析 226
12.3 Redis数据类型及操作命令 227
12.3.1 字符串类型 228
12.3.2 列表类型 229
12.3.3 集合类型 231
12.3.4 散列表类型 232
12.3.5 有序集合类型 233
12.4 Redis的持久化 234
12.4.1 RDB持久化 234
12.4.2 AOF持久化 236
12.5 Redis优化 238
12.6 本章小结 239
12.7 习题 239
第 13章 华为大数据解决方案 240
13.1 ICT行业发展趋势概述 240
13.1.1 概述 240
13.1.2 华为云Stack解决方案 241
13.1.3 华为云Stack功能架构 242
13.1.4 数字平台场景化解决方案 243
13.1.5 华为云大数据服务 244
13.2 华为大数据服务 245
13.2.1 MRS 245
13.2.2 数据仓库服务 246
13.2.3 云搜索服务 248
13.2.4 图引擎服务 248
13.3 华为智能数据湖运营平台 249
13.3.1 华为云智能数据湖 249
13.3.2 智能数据湖运营平台DAYU 250
13.3.3 数据湖治理 251
13.4 本章小结 252
13.5 习题 252
猜您喜欢

读书导航