书籍详情

Spark与Hadoop大数据分析

Spark与Hadoop大数据分析

作者:[美] 文卡特·安卡姆(Venkat Ankam) 著;吴今朝 译

出版社:机械工业出版社

出版时间:2017-07-01

ISBN:9787111569411

定价:¥59.00

购买这本书可以去
内容简介
  本书比较系统地讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法,既涵盖ApacheSpark和Hadoop的基础知识,又深入探讨所有Spark组件——SparkCore、SparkSQL、DataFrame、DataSet、普通流、结构化流、MLlib、Graphx,以及Hadoop的核心组件(HDFS、MapReduce和Yarn)等,并配套详细的实现示例,是快速掌握大数据分析基础架构及其实施方法的详实参考。 全书共10章,第1章从宏观的角度讲解大数据分析的概念,并介绍在Hadoop和Spark平台上使用的工具和技术,以及一些*常见的用例;第2章介绍Hadoop和Spark平台的基础知识;第3章深入探讨并学习Spark;第4章主要介绍DataSourcesAPI、DataFrameAPI和新的DatasetAPI;第5章讲解如何用SparkStreaming进行实时分析;第6章介绍Spark和Hadoop配套的笔记本和数据流;第7章讲解Spark和Hadoop上的机器学习技术;第8章介绍如何构建推荐系统;第9章介绍如何使用GraphX进行图分析;第10章介绍如何使用SparkR。
作者简介
  文卡特·安卡姆(VenkatAnkam) 有超过18年的IT经验和5年以上的大数据技术经验,与客户一起设计和开发过可扩展的大数据应用程序。他在利用Hadoop和Spark进行大数据分析方面拥有丰富的经验,与全球很多客户进行了合作。 他是Cloudera认证的Hadoop开发者和管理员,也是Databricks认证的Spark开发者。他还是一些全球Hadoop和Spark会议小组的创始人和主持人,热爱与社区分享知识。
目录
译者序
前言
第1章 从宏观视角看大数据分析 1
1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色 3
1.1.1 典型大数据分析项目的生命周期 4
1.1.2 Hadoop和Spark承担的角色 6
1.2 大数据科学以及Hadoop和Spark在其中承担的角色 6
1.2.1 从数据分析到数据科学的根本性转变 6
1.2.2 典型数据科学项目的生命周期 8
1.2.3 Hadoop和Spark 承担的角色 9
1.3 工具和技术 9
1.4 实际环境中的用例 11
1.5 小结 12
第2章 Apache Hadoop和Apache Spark入门 13
2.1 Apache Hadoop概述 13
2.1.1 Hadoop 分布式文件系统 14
2.1.2 HDFS 的特性 15
2.1.3 MapReduce 16
2.1.4 MapReduce 的特性 17
2.1.5 MapReduce v1与MapReduce v2对比 17
2.1.6 YARN 18
2.1.7 Hadoop上的存储选择 20
2.2 Apache Spark概述 24
2.2.1 Spark 的发展历史 24
2.2.2 Apache Spark 是什么 25
2.2.3 Apache Spark 不是什么 26
2.2.4 MapReduce 的问题 27
2.2.5 Spark 的架构 28
2.3 为何把 Hadoop 和 Spark 结合使用 31
2.3.1 Hadoop 的特性 31
2.3.2 Spark 的特性 31
2.4 安装 Hadoop 和 Spark 集群 33
2.5 小结 36
第3章 深入剖析Apache Spark 37
3.1 启动 Spark 守护进程 37
3.2 学习Spark的核心概念 39
3.3 Spark 程序的生命周期 55
3.4 Spark 应用程序 59
3.5 持久化与缓存 62
3.6 Spark 资源管理器:Standalone、YARN和Mesos 63
3.7 小结 67
第4章 利用Spark SQL、Data-Frame和Dataset进行大数据分析 69
4.1 Spark SQL 的发展史 70
4.2 Spark SQL 的架构 71
4.3 介绍Spark SQL的四个组件 72
4.4 DataFrame 和 Dataset 的演变 74
4.5 为什么要使用 Dataset 和DataFrame 75
4.6 何时使用 RDD、Dataset 和DataFrame 78
4.7 利用 DataFrame 进行分析 78
4.8 利用 Dataset API 进行分析 85
4.9 Data Sources API 87
4.10 把 Spark SQL 作为分布式 SQL引擎 97
4.11 Hive on Spark 100
4.12 小结 100
第5章 利用Spark Streaming和Structured Streaming进行实时分析 102
5.1 实时处理概述 103
5.2 Spark Streaming 的架构 104
5.3 Spark Streaming 的变换和动作 109
5.4 输入数据源和输出存储 111
5.5 使用 Kafka 和 HBase 的 Spark Streaming 113
5.6 Spark Streaming 的高级概念 118
5.7 监控应用程序 122
5.8 结构化流概述 123
5.9 小结 129
第6章 利用Spark和Hadoop的笔记本与数据流 130
6.1 基于网络的笔记本概述 130
6.2 Jupyter概述 131
6.3 Apache Zeppelin概述 135
6.4 Livy REST 作业服务器和 Hue笔记本 140
6.5 用于数据流的 Apache NiFi概述 148
6.6 小结 152
第7章 利用Spark和Hadoop进行机器学习 153
7.1 机器学习概述 153
7.2 在 Spark 和 Hadoop 上进行机器学习 154
7.3 机器学习算法 155
7.4 机器学习算法示例 160
7.5 构建机器学习流水线 163
7.6 利用 H2O 和 Spark 进行机器学习 167
7.7 Hivemall概述 169
7.8 Hivemall for Spark概述 170
7.9 小结 170
第8章 利用Spark和Mahout构建推荐系统 171
8.1 构建推荐系统 171
8.2 推荐系统的局限性 173
8.3 用 MLlib 实现推荐系统 173
8.4 Mahout 和 Spark 的集成 181
8.5 小结 189
第9章 利用GraphX进行图分析 190
9.1 图处理概述 190
9.2 GraphX 入门 193
9.3 利用 GraphX 分析航班数据 205
9.4 GraphFrames概述 209
9.5 小结 212
第10章 利用SparkR进行交互式分析 213
10.1 R语言和SparkR概述 213
10.2 SparkR 入门 216
10.3 在 SparkR 里使用 DataFrame 223
10.4 在 RStudio 里使用 SparkR 228
10.5 利用 SparkR 进行机器学习 230
10.6 在 Zeppelin 里使用 SparkR 233
10.7 小结 234
猜您喜欢

读书导航