书籍详情

大数据导论

大数据导论

作者:李建伟 编

出版社:北京邮电大学出版社

出版时间:2019-09-01

ISBN:9787563558810

定价:¥42.00

购买这本书可以去
内容简介
  《大数据导论》系统地介绍了大数据技术的基础知识。《大数据导论》实战环节的知识是在大数据培训的基础上总结提炼出来的,案例都为企业实际开发中的案例,所以内容的科学性和有效性已经被证实过,期望读者通过对《大数据导论》的学习和对《大数据导论》案例的实践,理解大数据技术的概念和原理,掌握Hadoop大数据技术中基础和重要的知识和实践。 《大数据导论》的主要内容包括大数据的概念及价值,Hadoop2.0介绍,分布式文件系统HDFS的原理、常用命令操作和编程实践,分布式计算框架MapReduce的原理、基础编程和高级编程,分布式资源管理系统YARN平台,分布式锁服务ZooKeeper,Hadoop高可用集群搭建和Hadoop实战项目。 《大数据导论》可作为高等院校成人教育数据科学与大数据技术、计算机科学与技术和软件工程等专业的大数据课程教材,也可作为相关技术人员的参考书。
作者简介
  李建伟,2005年毕业于北京邮电大学,美国Marist College访问学者,主要研究方向:智能自适应学习系统和大数据学习分析,曾主持研发了北京邮电大学网络教育学院远程教育平台。主要参与的国家、省部级科研项目有国家“十五”重大科技攻关计划“网络教育关键技术及示范工程项目”,国家科技支撑计划项目“虚拟实验智能指导与管理系统的研发”,国家科技重大专项“宽带无线校园创新实验网体系架构与关键技术研究”等,已发表论文19篇,获得国家发明专利2项,获得北京市教学成果二等奖1次。
目录
第1章 大数据概述
1.1 大数据概念及价值
1.2 大数据数据源
1.3 大数据技术应用场景
1.4 大数据处理流程及技术
1.5 大数据与云计算的关系
1.6 大数据与人工智能的关系
本章小结
习题一
第2章 Hadoop介绍
2.1 Hadoop简介
2.1.1 Hadoop由来
2.1.2 Hadoop发展历程
2.1.3 Hadoop生态系统
2.2 Hadoop的体系架构
2.2.1 分布式文件系统HDFS
2.2.2 分布式计算框架MapReduce
2.2.3 分布式资源调度系统YARN
2.3 Hadoop依赖的技术基础
2.3.1 Java编程基础
2.3.2 Web可视化技术基础
2.3.3 关系数据库基础
2.3.4 Linux基础
2.4 Hadoop2.0集群搭建
2.4.1 伪分布式安装部署
2.4.2 全分布式安装部署
本章小结
习题二
第3章 分布式文件系统HDFS
3.1 HDFS简介
3.2 HDFS的设计目标
3.3 HDFS的体系架构
3.3.1 主从架构
3.3.2 HDFS高可用性架构
3.4 HDFS的核心设计
3.4.1 数据复制
3.4.2 健壮性设计
3.4.3 数据组织
3.4.4 存储空间回收机制
3.4.5 可访问性
3.5 HDFS中数据流的读写
3.5.1 RPC实现流程
3.5.2 文件的读取
3.5.3 文件的写入
3.5.4 一致性模型
3.6 HDFS的联邦机制
本章小结
习题三
第4章 访问HDFS的常用接口
4.1 HDFS常用命令接口
4.2 HDFS编程环境准备
4.2.1 IDEA的安装配置及特性
4.2.2 Maven的安装配置
4.3 Java接口
4.3.1 在本地Windows机器上配置Hadoop环境变量
4.3.2 编写Java客户端程序
本章小结
习题四
第5章 分布式计算框架MapReduce
5.1 MapReduce编程模型简介
5.1.1 产生背景
5.1.2 MapReduce编程模型
5.1.3 MapReduce工作流程
5.1.4 MapReduce两个版本比较
5.2 MapReduce入门编程
5.2.1 认识Map和Reduce
5.2.2 MapTask阶段
5.2.3 ReduceTask阶段
本章小结
习题五
第6章 MapReduce基础编程
6.1 MapReduce编程设计
6.1.1 MapReduce分布式计算模型
6.1.2 MapReduce分布式编程框架
6.2 MapReduce编程实例wordcount
6.2.1 wordcount开发需求分析
6.2.2 编程环境准备
6.2.3 编写Mapper类
6.2.4 编写Reducer类
6.2.5 MapReduce程序在YARN集群的运行机制
6.2.6 编写YARN的客户端
6.2.7 YARN集群的配置、作业打包和启动
本章小结
习题六
第7章 分布式资源管理系统YARN
7.1 YARN简介
7.2 发展史
7.2.1 Hadoop1.
7.2.2 Hadoop2.0和Hadoop1.0的区别
7.2.3 MapReduce计算框架的演变
7.3 YARN的架构
7.4 YARN集群执行应用程序的工作流程
7.5 Hadoop如何使用YARN运行一个Job
7.6 YARN的调度策略
7.7 YARN的重要概念总结
本章小结
习题七
第8章 MapReduce高级编程
8.1 Combiner
8.2 Partitioner
8.3 计数器
8.4 排序
8.5 Join连接
8.6 倒排索引
8.7 求平均值和数据去重
本章小结
习题八
第9章 分布式锁服务ZooKeeper
9.1 ZooKeeper基本概念介绍
9.1.1 ZooKeeper的定义
9.1.2 ZooKeeper的基本原理和应用场景
9.1.3 ZooKeeper的选举机制
9.1.4 ZooKeeper的存储机制
9.2 ZooKeeper集群部署
9.3 ZooKeeper编程实例
9.3.1 ZooKeeper API基础知识
9.3.2 ZooKeeper API介绍及编程实例
本章小结
习题九
第10章 Hadoop高可用集群搭建
10.1 HDFS高可用的工作机制
10.2 集群规划
10.3 Hadoop HA集群搭建
10.3.1 前期准备
10.3.2 安装ZooKeeper集群
10.3.3 安装Hadoop集群
10.3.4 启动集群
10.3.5 测试
本章小结
习题十
参考文献
猜您喜欢

读书导航