书籍详情

大数据技术基础及应用教程(Linux+Hadoop+Spark)

大数据技术基础及应用教程(Linux+Hadoop+Spark)

作者:井超,樊永生 等

出版社:机械工业出版社

出版时间:2022-08-01

ISBN:9787111710912

定价:¥59.90

购买这本书可以去
内容简介
  本书从大数据技术相关概念出发,系统介绍了构建大数据平台的相关技术,并在此基础上进行离线数据分析和在线数据分析。全书共三篇,分为7章,内容包括技术基础篇、分布式集群篇、平台构建篇,第壹篇包括大数据技术概述、大数据分析技术,第二篇包括Linux技术基础、Hadoop技术基础及构建Hadoop集群、Spark技术基础及构建Spark集群,第三篇包括构建基于Spark的实时交易数据统计平台、构建基于Hadoop的离线电商大数据分析平台。 本书以理论为基础,以实例为引导,完整阐述了如何从无到有搭建大数据平台,并在此平台基础上进行应用。本书配套资源丰富,包括教学PPT、所有程序的源代码、相关集群虚拟机、扩展学习视频、课后练习题及答案,可方便授课教师教学及学生自学。 本书可作为高校数据科学与大数据技术等相关专业的教材,也可作为对大数据技术感兴趣的相关人员的参考用书。
作者简介
暂缺《大数据技术基础及应用教程(Linux+Hadoop+Spark)》作者简介
目录
目录
前言
第一篇 技术基础篇

第1章 大数据技术概述2
1.1 大数据的基本概念2
1.1.1 大数据的产生阶段2
1.1.2 大数据的特征2
1.1.3 大数据在各个领域的应用3
1.1.4 大数据的核心技术和计算模式3
1.2 分布式技术与集群4
1.2.1 分布式技术概述4
1.2.2 分布式大数据集群概述4
1.3 大数据技术生态圈7
1.3.1 Linux操作系统7
1.3.2 Hadoop生态系统9
1.3.3 Spark对Hadoop的完善13
本章小结13
本章练习13
第2章 大数据分析技术15
2.1 大数据分析流程及相关技术15
2.1.1 数据采集与预处理15
2.1.2 大数据存储16
2.1.3 大数据分析与挖掘17
2.1.4 数据可视化18
2.2 大数据分析常用方法18
2.2.1 数理统计分析18
2.2.2 聚类分析18
2.2.3 分类分析19
2.2.4 回归分析19
2.3 数据分析基础工具19
2.3.1 数据采集工具—Selenium和
PhantomJS19
2.3.2 数据清洗工具—Kettle20
2.3.3 数据存储工具—MongoDB和
MySQL21
2.3.4 机器学习工具—Scikit-learn23
2.3.5 数据可视化工具—Matplotlib、
PyEcharts、Superset23
本章小结25
本章练习26
第二篇 分布式集群篇

第3章 Linux技术基础28
3.1 用户与组管理28
3.1.1 用户管理相关命令28
3.1.2 组管理相关命令29
3.1.3 其他命令29
3.2 文件与目录管理29
3.2.1 常用文件操作命令29
3.2.2 目录操作命令31
3.2.3 改变文件或目录访问权限32
3.2.4 文件备份和压缩33
3.3 进程管理与作业控制33
3.3.1 进程查看34
3.3.2 进程调度34
3.4 磁盘存储管理34
3.4.1 磁盘管理命令35
3.4.2 存取命令35
3.5 系统管理与常用网络命令35
3.5.1 系统管理35
3.5.2 常用网络命令36
3.6 在线帮助系统36
3.7 实践:Linux操作系统的
安装与部署37
3.7.1 Linux的安装和卸载37
3.7.2 局域网主机间远程复制文件/
目录38
3.7.3 XML文件介绍38
3.7.4 VMware安装及CentOS系统
环境准备40
3.7.5 克隆虚拟机48
3.7.6 配置主机名50
3.7.7 配置网络IP地址51
本章小结53
本章练习53
第4章 Hadoop技术基础及构建
Hadoop集群55
4.1 Hadoop技术基础55
4.1.1 Hadoop的组成55
4.1.2 Hadoop的运行模式62
4.1.3 HDFS文件的存取63
4.1.4 Hadoop集群的环境配置64
4.1.5 Hadoop集群的搭建65
4.1.6 启动Hadoop集群69
4.2 ZooKeeper技术基础及部署70
4.2.1 ZooKeeper简介70
4.2.2 ZooKeeper的安装部署73
4.2.3 Leader选举机制75
4.2.4 ZooKeeper客户端访问集群
(命令行操作方式)82
4.3 HDFS与YARN高可用技术
基础84
4.3.1 HDFS高可用的工作机制84
4.3.2 HDFS高可用配置85
4.3.3 YARN高可用的工作机制93
4.3.4 YARN高可用配置94
4.4 实践:HDFS及MapReduce的
应用示例98
4.4.1 读写HDFS文件98
4.4.2 MapReduce操作 1:二次排序105
4.4.3 MapReduce操作 2:计数器110
4.4.4 MapReduce操作 3:Join操作113
本章小结119
本章练习119
第5章 Spark技术基础及构建
Spark集群121
5.1 Spark核心机制121
5.1.1 Spark基本原理121
5.1.2 Spark系统架构122
5.1.3 Spark Shell操作123
5.2 Hive原理及实践124
5.2.1 Hive定义124
5.2.2 Hive架构124
5.2.3 Hive表分类及查询操作126
5.3 HBase原理及实践130
5.3.1 HBase定义130
5.3.2 HBase集群架构130
5.3.3 HBase数据模型131
5.4 Kafka原理及实践133
5.4.1 Kafka定义133
5.4.2 Kafka消息队列133
5.4.3 Kafka基础架构134
5.5 Flume原理及实践135
5.5.1 Flume简介135
5.5.2 Flume基础架构135
5.6 实践:搭建基于Spark的实时
大数据平台137
5.6.1 Spark安装部署137
5.6.2 MySQL安装部署140
5.6.3 Hive安装部署141
5.6.4 HBase安装部署143
5.6.5 Kafka安装部署147
5.6.6 Flume安装部署149
5.6.7 Spark集群典型应用150
本章小结158
本章练习158

第三篇 平台构建篇

第6章 构建基于Spark的实时交易
数据统计平台161
6.1 系统需求与架构161
6.1.1 系统背景介绍161
6.1.2 系统功能需求162
6.1.3 系统架构设计162
6.2 Redis简介163
6.2.1 Redis数据库的作用163
6.2.2 Redis部署与启动163
6.2.3 Redis常用命令165
6.3 系统开发流程166
6.4 数据获取模块实现174
6.4.1 模拟订单数据174
6.4.2 向Kafka集群发送订单数据175
6.5 数据分析与处理模块实现178
6.5.1 分析订单数据178
6.5.2 生成结果182
6.6 数据可视化模块实现182
6.6.1 搭建Web开发环境183
6.6.2 实现数据展示功能185
6.6.3 可视化平台展示192
本章小结192
本章练习192
第7章 构建基于Hadoop的离线
电商大数据分析平台194
7.1 系统需求与架构194
7.1.1 系统背景介绍194
7.1.2 系统功能需求195
7.1.3 系统架构设计195
7.2 数据采集模块实现196
7.2.1 商品信息爬取196
7.2.2 调试分析210
7.3 数据处理与存储模块实现211
7.3.1 信息分析与处理211
7.3.2 商品信息存储220
7.3.3 调试分析222
7.4 数据可视化模块实现222
7.4.1 使用Superset连接MySQL
数据库223
7.4.2 调试分析223
本章小结226
本章练习227
参考文献228
猜您喜欢

读书导航