书籍详情
Hadoop+HBase技术项目教程
作者:张立辉,李明革
出版社:机械工业出版社
出版时间:2022-06-01
ISBN:9787111705239
定价:¥59.00
购买这本书可以去
内容简介
本书详细介绍了大数据技术中的Hadoop 集群部署、MapReduce、Hive和HBase 等的基本知识和应用,本书采用了大量案例,可以更好地帮助读者学习和理解大数据的核心技术。 \n本书从实用的角度出发,设计了9 个项目,从虚拟机安装入手,结合实际工作中的典型项目和案例,全面介绍了Hadoop 集群部署、HDFS、MapReduce 编程、Hive、HBase 和Sqoop 的相关知识和基本操作。 \n本书围绕Linux 操作系统和Hadoop 集群部署,按照初学者的思维习惯,循序渐进地设计和安排学习内容,采用将基础知识融入项目教学的方式,在完成项目学习的同时,实现从理论知识到能力的转化,帮助学习者牢固掌握Hadoop 集群部署等相关知识的实践技能。 \n本书适合作为职业类院校计算机、大数据等相关专业的教材,也适用于计算机培训班教学,以及有构建大数据知识体系需求的读者学习。
作者简介
张立辉,2003年毕业于吉林工程技术师范学院计算机科学与技术专业,发表核心论文一篇,论文10余篇,主持和参与课题5个,指导学生参加吉林省大数据比赛多次获得一等奖,实用新型专利3个,软件著作权4个。带领团队参与公司实际项目3个以上。
目录
目录 \n
\n
前言 \n
项目1 Hadoop 安装 \n
1.1 大数据认知 \n
1.1.1 大数据是什么 \n
1.1.2 大数据应用领域 \n
1.1.3 大数据的特点 \n
1.1.4 大数据的技术架构 \n
1.2 Hadoop 认知 \n
1.2.1 Hadoop 起源 \n
1.2.2 Hadoop 的特点 \n
1.2.3 Hadoop 生态圈 \n
1.2.4 Hadoop 核心架构 \n
项目实现 \n
任务1 安装前准备 \n
任务2 虚拟机的安装 \n
任务3 Ubuntu 的安装 \n
任务4 解压与压缩命令 \n
任务5 JDK 安装和配置 \n
任务6 Hadoop 的安装 \n
拓展项目 \n
课后练习 \n
项目2 Hadoop 集群部署 \n
2.1 Linux 环境设置 \n
2.1.1 Linux 常用命令 \n
2.1.2 用户(组)创建 \n
2.1.3 FileZilla 文件传输 \n
2.1.4 apt 更新 \n
2.1.5 vim 编辑器的应用 \n
2.1.6 网络配置 \n
2.2 Hadoop 配置文件 \n
2.2.1 环境变量的配置 \n
2.2.2 SSH 安装 \n
2.2.3 core-site.xml 配置文件 \n
2.2.4 hdfs-site.xml 配置文件 \n
2.2.5 Hadoop 伪分布式运行实例 \n
2.3 YARN 认知 \n
2.3.1 初识YARN \n
2.3.2 YARN 基本服务组件 \n
2.3.3 YARN 执行过程 \n
项目实现 \n
任务1 部署前准备 \n
任务2 集群网络配置 \n
任务3 配置文件的设置 \n
任务4 集群部署 \n
拓展项目 \n
课后练习 \n
项目3 HDFS-电影信息管理 \n
3.1 HDFS 认知 \n
3.1.1 HDFS 简介 \n
3.1.2 HDFS 特点 \n
3.1.3 HDFS 设计原则 \n
3.1.4 HDFS 核心概念 \n
3.2 HDFS 常用Shell 命令和基础编程开发 \n
3.2.1 HDFS 常用Shell 命令 \n
3.2.2 用HDFS API 实现上传本地文件 \n
3.2.3 用HDFS API 实现创建HDFS 文件 \n
3.2.4 用HDFS API 实现读取和写入文件 \n
3.2.5 用HDFS API 实现创建HDFS 目录 \n
3.2.6 用HDFS API 实现查找文件所在位置 \n
3.3 HDFS 工作机制 \n
3.3.1 HDFS 写数据流程 \n
3.3.2 HDFS 读数据流程 \n
3.3.3 NameNode 工作机制 \n
3.3.4 DataNode 工作机制 \n
项目实现 \n
任务1 环境搭建 \n
任务2 写入电影信息 \n
任务3 读取电影信息 \n
拓展项目 \n
课后练习 \n
项目4 用MapReduce 统计网站最大访问次数 \n
4.1 MapReduce 认知 \n
4.1.1 MapReduce 的由来 \n
4.1.2 MapReduce 的执行过程 \n
4.1.3 Mapper 过程 \n
4.1.4 Reduce 过程 \n
4.1.5 Shuffle 过程 \n
4.2 MapReduce 程序开发 \n
4.2.1 IDEA 安装 \n
4.2.2 MapReduce 输入/输出类型 \n
4.2.3 MapReduce 输入处理类 \n
4.2.4 MapReduce 输出处理类 \n
4.2.5 典型案例:WordCount \n
项目实现 \n
任务1 POJO 类编写 \n
任务2 Map 网站访问数据 \n
任务3 Reduce 网站访问数据 \n
任务4 项目驱动类编写 \n
拓展项目 \n
课后练习 \n
项目5 用MapReduce 实现课程名称和成绩的二次排序 \n
5.1 MapReduce 高级开发一 \n
5.1.1 Combiner 合并编程 \n
5.1.2 Partitioner 分区编程 \n
5.1.3 RecordReader 编程 \n
5.2 MapReduce 高级开发二 \n
5.2.1 MapReduce 连接操作 \n
5.2.2 MapReduce 排序操作 \n
5.2.3 MapReduce 多文件联合查询 \n
项目实现 \n
任务1 POJO 类编写 \n
任务2 Map 课程和成绩数据 \n
任务3 Reduce 课程和成绩数据 \n
任务4 项目驱动类编写 \n
拓展项目 \n
课后练习 \n
项目6 用Hive 实现购物用户数据清洗 \n
6.1 Hive 认知 \n
6.1.1 Hive 简介 \n
6.1.2 Hive 体系结构 \n
6.1.3 Hive 设计特征 \n
6.2 Hive 安装 \n
6.2.1 伪分布式安装与配置Hive \n
6.2.2 安装与配置MySQL \n
6.3 Hive 基本操作 \n
6.3.1 Hive 数据类型 \n
6.3.2 数据库操作 \n
6.3.3 内部表操作 \n
6.3.4 外部表操作 \n
6.3.5 分区表操作 \n
6.3.6 分桶表操作 \n
6.3.7 Hive 数据操作 \n
项目实现 \n
任务1 导入数据 \n
任务2 数据分析 \n
任务3 数据导出 \n
拓展项目 \n
课后练习 \n
项目7 用HBase 实现学生成绩管理 \n
7.1 HBase 认知 \n
7.1.1 HBase 简介 \n
7.1.2 HBase 体系结构 \n
7.1.3 HBase 写数据流程 \n
7.1.4 HBase 读数据流程 \n
7.2 HBase 安装 \n
7.2.1 下载软件 \n
7.2.2 伪分布式安装与配置 \n
7.3 HBase shell 操作命令 \n
7.3.1 HBase 数据模型 \n
7.3.2 数据表空间操作 \n
7.3.3 数据表操作 \n
7.3.4 数据操作 \n
7.4 HBase API 操作 \n
7.4.1 HBase 常用的API \n
7.4.2 Configuration 对象 \n
7.4.3 HTable 句柄创建 \n
7.4.4 HBase 数据的CRUD 操作 \n
项目实现 \n
任务1 学生成绩表数据准备 \n
任务2 学生成绩表设计分析 \n
任务3 学生成绩表代码实现 \n
拓展项目 \n
课后练习 \n
项目8 Sqoop 导入导出 \n
8.1 概述 \n
8.1.1 Sqoop 产生背景 \n
8.1.2 Sqoop 是什么 \n
8.1.3 为什么选择 Sqoop \n
8.2 工作原理 \n
8.2.1 导入机制 \n
8.2.2 导出机制 \n
8.3 安装 \n
8.4 Sqoop 的基本命令 \n
8.4.1 基本操作 \n
8.4.2 示例 \n
项目实现 \n
任务1 从RDBMS 导入到HDFS \n
任务2 从MySQL 导入到Hive \n
任务3 从MySQL 导入到HBase \n
课后练习 \n
Hadoop 综合实例—网络交易数据统计 \n
9.1 项目概述 \n
9.1.1 项目实现的思路 \n
9.1.2 项目流程 \n
9.2 准备工作 \n
9.2.1 项目环境的搭建 \n
9.2.2 Hadoop+HBase+Hive 集成 \n
9.2.3 HBase 数据库设计原则 \n
9.2.4 数据概况 \n
项目实现 \n
项目9 \n
任务1 POJO 类编写 \n
任务2 统计不同品牌手机的销售数量 \n
任务3 统计不同品牌手机销量和销售额占比 \n
任务4 统计某年每个月的手机销售数量的比例 \n
任务5 统计每个月份各市区县的手机销售数量 \n
任务6 统计购买手机的男女比例 \n
任务7 统计不同手机品牌购买用户的年龄区间人数 \n
课后练习
\n
前言 \n
项目1 Hadoop 安装 \n
1.1 大数据认知 \n
1.1.1 大数据是什么 \n
1.1.2 大数据应用领域 \n
1.1.3 大数据的特点 \n
1.1.4 大数据的技术架构 \n
1.2 Hadoop 认知 \n
1.2.1 Hadoop 起源 \n
1.2.2 Hadoop 的特点 \n
1.2.3 Hadoop 生态圈 \n
1.2.4 Hadoop 核心架构 \n
项目实现 \n
任务1 安装前准备 \n
任务2 虚拟机的安装 \n
任务3 Ubuntu 的安装 \n
任务4 解压与压缩命令 \n
任务5 JDK 安装和配置 \n
任务6 Hadoop 的安装 \n
拓展项目 \n
课后练习 \n
项目2 Hadoop 集群部署 \n
2.1 Linux 环境设置 \n
2.1.1 Linux 常用命令 \n
2.1.2 用户(组)创建 \n
2.1.3 FileZilla 文件传输 \n
2.1.4 apt 更新 \n
2.1.5 vim 编辑器的应用 \n
2.1.6 网络配置 \n
2.2 Hadoop 配置文件 \n
2.2.1 环境变量的配置 \n
2.2.2 SSH 安装 \n
2.2.3 core-site.xml 配置文件 \n
2.2.4 hdfs-site.xml 配置文件 \n
2.2.5 Hadoop 伪分布式运行实例 \n
2.3 YARN 认知 \n
2.3.1 初识YARN \n
2.3.2 YARN 基本服务组件 \n
2.3.3 YARN 执行过程 \n
项目实现 \n
任务1 部署前准备 \n
任务2 集群网络配置 \n
任务3 配置文件的设置 \n
任务4 集群部署 \n
拓展项目 \n
课后练习 \n
项目3 HDFS-电影信息管理 \n
3.1 HDFS 认知 \n
3.1.1 HDFS 简介 \n
3.1.2 HDFS 特点 \n
3.1.3 HDFS 设计原则 \n
3.1.4 HDFS 核心概念 \n
3.2 HDFS 常用Shell 命令和基础编程开发 \n
3.2.1 HDFS 常用Shell 命令 \n
3.2.2 用HDFS API 实现上传本地文件 \n
3.2.3 用HDFS API 实现创建HDFS 文件 \n
3.2.4 用HDFS API 实现读取和写入文件 \n
3.2.5 用HDFS API 实现创建HDFS 目录 \n
3.2.6 用HDFS API 实现查找文件所在位置 \n
3.3 HDFS 工作机制 \n
3.3.1 HDFS 写数据流程 \n
3.3.2 HDFS 读数据流程 \n
3.3.3 NameNode 工作机制 \n
3.3.4 DataNode 工作机制 \n
项目实现 \n
任务1 环境搭建 \n
任务2 写入电影信息 \n
任务3 读取电影信息 \n
拓展项目 \n
课后练习 \n
项目4 用MapReduce 统计网站最大访问次数 \n
4.1 MapReduce 认知 \n
4.1.1 MapReduce 的由来 \n
4.1.2 MapReduce 的执行过程 \n
4.1.3 Mapper 过程 \n
4.1.4 Reduce 过程 \n
4.1.5 Shuffle 过程 \n
4.2 MapReduce 程序开发 \n
4.2.1 IDEA 安装 \n
4.2.2 MapReduce 输入/输出类型 \n
4.2.3 MapReduce 输入处理类 \n
4.2.4 MapReduce 输出处理类 \n
4.2.5 典型案例:WordCount \n
项目实现 \n
任务1 POJO 类编写 \n
任务2 Map 网站访问数据 \n
任务3 Reduce 网站访问数据 \n
任务4 项目驱动类编写 \n
拓展项目 \n
课后练习 \n
项目5 用MapReduce 实现课程名称和成绩的二次排序 \n
5.1 MapReduce 高级开发一 \n
5.1.1 Combiner 合并编程 \n
5.1.2 Partitioner 分区编程 \n
5.1.3 RecordReader 编程 \n
5.2 MapReduce 高级开发二 \n
5.2.1 MapReduce 连接操作 \n
5.2.2 MapReduce 排序操作 \n
5.2.3 MapReduce 多文件联合查询 \n
项目实现 \n
任务1 POJO 类编写 \n
任务2 Map 课程和成绩数据 \n
任务3 Reduce 课程和成绩数据 \n
任务4 项目驱动类编写 \n
拓展项目 \n
课后练习 \n
项目6 用Hive 实现购物用户数据清洗 \n
6.1 Hive 认知 \n
6.1.1 Hive 简介 \n
6.1.2 Hive 体系结构 \n
6.1.3 Hive 设计特征 \n
6.2 Hive 安装 \n
6.2.1 伪分布式安装与配置Hive \n
6.2.2 安装与配置MySQL \n
6.3 Hive 基本操作 \n
6.3.1 Hive 数据类型 \n
6.3.2 数据库操作 \n
6.3.3 内部表操作 \n
6.3.4 外部表操作 \n
6.3.5 分区表操作 \n
6.3.6 分桶表操作 \n
6.3.7 Hive 数据操作 \n
项目实现 \n
任务1 导入数据 \n
任务2 数据分析 \n
任务3 数据导出 \n
拓展项目 \n
课后练习 \n
项目7 用HBase 实现学生成绩管理 \n
7.1 HBase 认知 \n
7.1.1 HBase 简介 \n
7.1.2 HBase 体系结构 \n
7.1.3 HBase 写数据流程 \n
7.1.4 HBase 读数据流程 \n
7.2 HBase 安装 \n
7.2.1 下载软件 \n
7.2.2 伪分布式安装与配置 \n
7.3 HBase shell 操作命令 \n
7.3.1 HBase 数据模型 \n
7.3.2 数据表空间操作 \n
7.3.3 数据表操作 \n
7.3.4 数据操作 \n
7.4 HBase API 操作 \n
7.4.1 HBase 常用的API \n
7.4.2 Configuration 对象 \n
7.4.3 HTable 句柄创建 \n
7.4.4 HBase 数据的CRUD 操作 \n
项目实现 \n
任务1 学生成绩表数据准备 \n
任务2 学生成绩表设计分析 \n
任务3 学生成绩表代码实现 \n
拓展项目 \n
课后练习 \n
项目8 Sqoop 导入导出 \n
8.1 概述 \n
8.1.1 Sqoop 产生背景 \n
8.1.2 Sqoop 是什么 \n
8.1.3 为什么选择 Sqoop \n
8.2 工作原理 \n
8.2.1 导入机制 \n
8.2.2 导出机制 \n
8.3 安装 \n
8.4 Sqoop 的基本命令 \n
8.4.1 基本操作 \n
8.4.2 示例 \n
项目实现 \n
任务1 从RDBMS 导入到HDFS \n
任务2 从MySQL 导入到Hive \n
任务3 从MySQL 导入到HBase \n
课后练习 \n
Hadoop 综合实例—网络交易数据统计 \n
9.1 项目概述 \n
9.1.1 项目实现的思路 \n
9.1.2 项目流程 \n
9.2 准备工作 \n
9.2.1 项目环境的搭建 \n
9.2.2 Hadoop+HBase+Hive 集成 \n
9.2.3 HBase 数据库设计原则 \n
9.2.4 数据概况 \n
项目实现 \n
项目9 \n
任务1 POJO 类编写 \n
任务2 统计不同品牌手机的销售数量 \n
任务3 统计不同品牌手机销量和销售额占比 \n
任务4 统计某年每个月的手机销售数量的比例 \n
任务5 统计每个月份各市区县的手机销售数量 \n
任务6 统计购买手机的男女比例 \n
任务7 统计不同手机品牌购买用户的年龄区间人数 \n
课后练习
猜您喜欢