书籍详情

Hadoop与Spark入门

作者：覃雄派，陈跃国

出版社：清华大学出版社

出版时间：2022-11-01

ISBN：9787302613633

定价：¥59.00

购买这本书可以去

当当网

¥41.30

内容简介

　　本书为一本大数据技术的入门书籍，介绍Hadoop大数据平台和Spark大数据平台及相关工具的原理，以及如何进行部署和简单开发。全书包含13章：、2章介绍如何为深入学习Hadoop和Spark做环境准备，包括VMware虚拟机的创建和CentOS操作系统安装。第3～6章介绍Hadoop大数据平台的基本原理，包括HDFS、MapReduce计算模型、HBase数据库，以及Hive数据仓库的原理、部署方法和开发技术。第7～11章介绍Spark大数据平台的基本原理，包括弹性分布式数据集、转换与动作操作、宽依赖与窄依赖、有向无环图表达的作业及其处理过程等，并且介绍了Spark Core、Spark SQL、Spark MLlib、Spark GraphX的部署和开发技术。两章介绍了Flume（ 2章）和Kafka（ 3章）两个工具，Flume用于大量日志的收集和处理，Kafka用于对大量快速到达的数据进行及时、可靠、暂时的存储。本书适合高等院校高年级本科生以及硕士研究生使用，也可以供非计算机专业学生及相关领域技术人员参考。

作者简介

　　覃雄派，博士，中国人民大学信息学院讲师、硕士生导师，目前主要从事高性能数据库、大数据分析、信息检索等方面的研究工作，主持1项自然科学基金面上项目，参与多项 “863”计划、“973”计划及自然科学基金项目，在外期刊和会议上发表论文20余篇。

第1章 VMware 与虚拟机
1.1 VMware简介
1.2 VMware的安装
1.3 VMware的网络配置
1.3.1 VMnet0网卡配置
1.3.2 VMnet1网卡配置
1.3.3 VMnet8网卡配置
1.4 Windows环境下对VMnet8的DNS进行配置
1.5 利用管理员权限编辑网卡
1.6 总结
1.7 思考题
参考文献
第2章 CentOS操作系统安装
2.1 新建VMware虚拟机
2.2 安装CentOS
2.3 配置Yum
2.4 为CentOS安装图形用户界面
2.5 CentOS的网络配置
2.5.1 虚拟机的网络配置
2.5.2 在CentOS操作系统里对网卡进行设置
2.6 Samba配置
2.7 配置SSHD
2.8 重新启动虚拟机需要执行的命令
2.9 思考题
第3章 Hadoop入门
3.1 Hadoop简介
3.2 HDFS
3.2.1 写文件
3.2.2 读文件
3.2.3 Secondary NameNode介绍
3.3 MapReduce 工作原理
3.3.1 MapReduce 执行引擎
3.3.2 MapReduce 计算模型
3.3.3Hadoop 1.0 的应用
3.4 Hadoop 生态系统
3.5 Hadoop 2
3.5.1Hadoop 1.0 的优势和局限
3.5.2 从Hadoop 1.0 到Hadoop 2.0
3.5.3 YARN原理
3.5.4 YARN的优势
3.6 思考题
第4章 Hadoop安装与HDFS、MapReduce实验
4.1 安装JDK
4.2 新建虚拟机集群
4.2.1 网络配置小结
4.2.2 配置各个虚拟机别名
4.2.3 配置各个虚拟机的/etc/hosts文件
4.3 无密码SSH登录
4.4 Hadoop 安装、配置和启动
4.4.1 core-site.xml配置文件

猜您喜欢

启源

模式识别

电力系统安全稳定分析与控制研究