书籍详情
Spark最佳实践
作者:陈欢 林世飞
出版社:人民邮电出版社
出版时间:2016-05-01
ISBN:9787115422286
定价:¥49.00
购买这本书可以去
内容简介
本书是Spark实战指南,全书共分8章。前4章介绍Spark的部署、工作机制和内核,后4章分别通过实战项目介绍Spark SQL、Spark Streaming、Spark GraphX和Spark MLib功能模块。此外,本书详细介绍了常见的实战问题,比如大数据环境下的配置设置、程序调优等。本书附带的一键安装脚本,更能为初学者提供很大帮助。
作者简介
陈欢,腾讯杰出程序员,15年编码经验,曾任职网络安全、互联网金融等部门,亲手从零建设了财付通业务的Spark集群,并使之同时支持SQL、实时计算、机器学习等多种数据计算场景。他目前就职于腾讯社交与效果广告部,从事大数据分析工作。林世飞,腾讯杰出研究员,2005年加入腾讯,先后在无线产品、安全中心、搜索平台、开放平台、社交与效果广告部等部门从事开发和团队管理工作。他对网络安全、搜索引擎、数据挖掘、机器学习有一定了解,热衷知识传播和分享,曾获腾讯学院2009年年度杰出讲师。目前,他就职于社交与效果广告部,负责广告系统相关的研发工作。
目录
目录
第1 章 Spark 与大数据 1
1.1 大数据的发展及现状 1
1.1.1 大数据时代所面临的问题 1
1.1.2 谷歌的大数据解决方案 2
1.1.3 Hadoop 生态系统 3
1.2 Spark 应时而生 4
1.2.1 Spark 的起源 4
1.2.2 Spark 的特点 5
1.2.3 Spark 的未来发展 6
第2 章 Spark 基础 8
2.1 Spark 本地单机模式体验 8
2.1.1 安装虚拟机 8
2.1.2 安装JDK 19
2.1.3 下载Spark 预编译包 21
2.1.4 本地体验Spark 22
2.2 高可用Spark 分布式集群部署 25
2.2.1 集群总览 26
2.2.2 集群机器的型号选择 28
2.2.3 初始化集群机器环境 29
2.2.4 部署ZooKeeper 集群 33
2.2.5 编译Spark 35
2.2.6 部署Spark Standalone 集群 37
2.2.7 高可用Hadoop 集群 40
2.2.8 让Spark 运行在YARN 上 40
2.2.9 一键部署高可用Hadoop +
Spark 集群 42
2.3 Spark 编程指南 43
2.3.1 交互式编程 43
2.3.2 RDD 创建 44
2.3.3 RDD 操作 47
2.3.4 使用其他语言开发Spark 程序 54
2.4 打包和提交 54
2.4.1 编译、链接、打包 54
2.4.2 提交 56
第3 章 Spark 工作机制 58
3.1 调度管理 58
3.1.1 集群概述及名词解释 58
3.1.2 Spark 程序之间的调度 60
3.1.3 Spark 程序内部的调度 63
3.2 内存管理 65
3.2.1 RDD 持久化 65
3.2.2 共享变量 66
3.3 容错机制 67
3.3.1 容错体系概述 67
3.3.2 Master 节点失效 68
3.3.3 Slave 节点失效 69
3.4 监控管理 69
3.4.1 Web 界面 69
3.4.2 REST API 72
3.4.3 Metrics 指标体系 73
3.4.4 其他监控工具 73
3.5 Spark
猜您喜欢