书籍详情
Hadoop大数据实战权威指南(第2版)
作者:黄东军
出版社:电子工业出版社
出版时间:2019-09-01
ISBN:9787121370335
定价:¥79.00
购买这本书可以去
内容简介
基于\
作者简介
黄东军,男,教授,博士,博士生导师。毕业于中南大学计算机应用技术,先工作于中南大学信息科学与工程学院。中国计算机学会高级会员,教育部计算机科学与技术专业教学指导委员会\
目录
目 录
第一篇 大数据的基本概念和技术\t1
第1章 绪论\t3
1.1 大数据的时代背景\t3
1.1.1 全球大数据浪潮\t3
1.1.2 我国的大数据战略\t5
1.2 大数据的基本概念和特征\t6
1.2.1 基本概念\t6
1.2.2 基本特征\t7
1.3 大数据系统的技术支撑体系\t7
1.3.1 技术支撑体系概览\t7
1.3.2 大数据系统的采集层\t8
1.3.3 大数据系统的存储层\t9
1.3.4 大数据系统的分析层\t9
1.3.5 大数据系统的应用层\t9
1.3.6 大数据系统的垂直层\t10
1.4 大数据领域的主要职位及其能力要求\t11
1.4.1 首席数据官\t11
1.4.2 数据科学家\t11
1.4.3 大数据开发工程师\t12
1.4.4 大数据运维工程师\t13
1.5 本章小结\t13
第2章 Hadoop大数据关键技术\t15
2.1 Hadoop大数据应用生态系统\t15
2.1.1 架构的基本理论\t15
2.1.2 Hadoop大数据应用生态系统的主要组件及其关系\t16
2.2 大数据采集技术\t19
2.2.1 结构化数据采集工具\t19
2.2.2 日志收集工具与技术\t20
2.3 大数据存储技术\t23
2.3.1 相关概念\t23
2.3.2 分布式存储系统\t27
2.3.3 数据库(HBase)与数据仓库(Hive)\t30
2.4 分布式计算框架\t35
2.4.1 离线计算框架\t35
2.4.2 实时流计算平台\t40
2.5 数据分析平台与工具\t45
2.5.1 面向大数据的数据挖掘与分析工具\t45
2.5.2 机器学习\t49
2.6 本章小结\t52
第二篇 Hadoop大数据平台搭建与基本应用\t55
第3章 Linux操作系统与集群搭建\t57
3.1 Linux操作系统\t57
3.1.1 概述\t57
3.1.2 特点\t58
3.1.3 Linux操作系统的组成\t59
3.2 Linux集群的搭建\t62
3.2.1 安装VMware Workstation\t62
3.2.2 在VMware Workstation Pro 12上安装Linux(CentOS 7)\t65
3.3 集群的配置\t77
3.3.1 设置主机名\t77
3.3.2 网络设置\t79
3.3.3 关闭防火墙\t83
3.3.4 安装JDK\t84
3.3.5 免密钥登录配置\t87
3.4 Linux基本命令\t89
3.5 本章小结\t96
第4章 HDFS安装与基本应用\t97
4.1 HDFS概述\t97
4.1.1 特点\t97
4.1.2 主要组件与架构\t97
4.2 HDFS架构分析\t98
4.2.1 数据块\t98
4.2.2 NameNode\t98
4.2.3 DataNode\t99
4.2.4 SecondaryNameNode\t100
4.2.5 数据备份\t100
4.2.6 通信协议\t101
4.2.7 可靠性保证\t101
4.3 文件操作过程分析\t101
4.3.1 读文件\t101
4.3.2 写文件\t102
4.3.3 删除文件\t103
4.4 Hadoop的安装与配置\t104
4.4.1 解压Hadoop安装包\t104
4.4.2 配置Hadoop环境变量\t105
4.4.3 配置Yarn环境变量\t106
4.4.4 配置核心组件\t106
4.4.5 配置文件系统\t107
4.4.6 配置yarn site.xml文件\t108
4.4.7 配置MapReduce计算框架文件\t109
4.4.8 配置Master中的workers文件\t111
4.4.9 将Master上的Hadoop复制到Slave\t111
4.5 Hadoop集群的启动\t112
4.5.1 配置操作系统的环境变量\t112
4.5.2 创建Hadoop数据目录\t113
4.5.3 格式化文件系统\t113
4.5.4 启动和关闭Hadoop\t114
4.5.5 验证Hadoop是否成功启动\t115
4.6 Hadoop集群的基本应用\t117
4.6.1 HDFS基本命令\t117
4.6.2 在Hadoop集群中运行程序\t120
4.7 本章小结\t122
第5章 MapReduce与Yarn\t123
5.1 MapReduce程序的概念\t123
5.1.1 基本编程模型\t123
5.1.2 计算过程分析\t124
5.2 深入理解Yarn\t126
5.2.1 Yarn的基本架构\t126
5.2.2 Yarn的工作流程\t130
5.3 在Linux平台安装Eclipse\t130
5.3.1 Eclipse简介\t130
5.3.2 安装并启动Eclipse\t131
5.4 开发MapReduce程序的基本方法\t133
5.4.1 为Eclipse安装Hadoop插件\t133
5.4.2 WordCount:第一个MapReduce程序\t137
5.5 本章小结\t150
第6章 Hive和HBase的安装与应用\t151
6.1 在CentOS 7下安装MySQL\t151
6.1.1 下载或复制MySQL安装包\t151
6.1.2 执行安装命令\t152
6.1.3 启动MySQL\t153
6.1.4 登录MySQL\t153
6.1.5 使用MySQL\t154
6.1.6 问题与解决办法\t156
6.2 Hive安装与应用\t157
6.2.1 下载并解压Hive安装包\t158
6.2.2 配置Hive\t158
6.2.3 启动并验证Hive\t161
6.2.4 Hive的基本应用\t162
6.3 ZooKeeper集群安装\t163
6.3.1 ZooKeeper简介\t163
6.3.2 安装ZooKeeper\t164
6.3.3 配置ZooKeeper\t165
6.3.4 启动和测试\t166
6.4 HBase的安装与应用\t168
6.4.1 解压并安装HBase\t168
6.4.2 配置HBase\t169
6.4.3 启动并验证HBase\t171
6.4.4 HBase的基本应用\t173
6.4.5 HBase应用中常见问题及其解决办法\t175
6.5 本章小结\t176
第7章 Sqoop和Kafka的安装与应用\t177
7.1 安装部署Sqoop\t177
7.1.1 下载或复制Sqoop安装包\t177
7.1.2 解压并安装Sqoop\t177
7.1.3 配置Sqoop\t178
7.1.4 启动并验证Sqoop\t180
7.1.5 测试Sqoop与MySQL的连接\t180
7.2 安装部署Kafka集群\t182
7.2.1 下载或复制Kafka安装包\t182
7.2.2 解压缩Kafka安装包\t182
7.2.3 配置Kafka集群\t183
7.2.4 Kafka的初步应用\t184
7.3 本章小结\t188
第8章 Spark集群的安装与开发环境的配置\t189
8.1 深入理解Spark\t189
8.1.1 Spark的系统架构\t189
8.1.2 Spark的关键概念\t191
8.2 Scala的安装与配置\t193
8.2.1 下载Scala安装包\t194
8.2.2 安装Scala\t194
8.2.3 启动并应用Scala\t195
8.3 Spark集群的安装与配置\t195
8.3.1 安装模式\t195
8.3.2 Spark的安装\t196
8.3.3 启动并验证Spark\t198
8.3.4 几点说明\t202
8.4 IDEA开发环境的安装与配置\t203
8.4.1 IDEA简介\t203
8.4.2 IDEA的安装\t204
8.4.3 IDEA的配置\t205
8.5 本章小结\t208
第9章 Spark应用基础\t209
9.1 Spark应用程序的运行模式\t209
9.1.1 Spark on Yarn-cluster-\t209
9.1.2 Spark on Yarn-client\t210
9.2 Spark的应用设计\t211
9.2.1 分布式估算圆周率\t211
9.2.2 基于Spark MLlib的贷款风险预测\t226
9.3 本章小结\t242
第三篇 大数据处理与项目开发\t243
第10章 交互式数据处理\t245
10.1 数据预处理\t245
10.1.1 查看数据\t245
10.1.2 数据扩展\t247
10.1.3 数据过滤\t247
10.1.4 数据上传\t248
10.2 创建数据仓库\t249
10.2.1 创建Hive数据仓库的基本命令\t249
10.2.2 创建Hive分区表\t251
10.3 数据分析\t253
10.3.1 基本统计\t253
10.3.2 用户行为分析\t254
10.3.3 实时数据\t256
10.4 本章小结\t256
第11章 协同过滤推荐系统\t257
11.1 推荐算法概述\t257
11.1.1 基于人口统计学的推荐\t257
11.1.2 基于内容的推荐\t258
11.1.3 协同过滤推荐\t258
11.2 协同过滤推荐算法分析\t259
11.2.1 基于用户的协同过滤推荐\t259
11.2.2 基于物品的协同过滤推荐\t261
11.3 Spark MLlib推荐算法应用\t262
11.3.1 ALS算法原理\t262
11.3.2 ALS的应用设计\t264
11.4 本章小结\t277
第12章 销售数据分析系统\t279
12.1 数据采集\t279
12.1.1 在Windows平台安装JDK\t279
12.1.2 在Windows平台安装Eclipse\t281
12.1.3 将WebCollector项目导入Eclipse\t282
12.1.4 在Windows平台安装MySQL\t283
12.1.5 连接JDBC\t286
12.1.6 运行爬虫程序\t286
12.2 在HBase集群上准备数据\t287
12.2.1 将数据导入MySQL\t287
12.2.2 将MySQL表中的数据导入HBase集群\t289
12.3 安装Phoenix中间件\t291
12.3.1 Phoenix架构\t291
12.3.2 解压安装Phoenix\t293
12.3.3 Phoenix环境配置\t293
12.3.4 使用Phoenix\t294
12.4 基于Web的前端开发\t298
12.4.1 将Web前端项目导入Eclipse\t298
12.4.2 安装Tomcat\t300
12.4.3 在Eclipse中配置Tomcat\t300
12.4.4 在Web浏览器中查看执行结果\t303
12.5 本章小结\t305
参考文献307
第一篇 大数据的基本概念和技术\t1
第1章 绪论\t3
1.1 大数据的时代背景\t3
1.1.1 全球大数据浪潮\t3
1.1.2 我国的大数据战略\t5
1.2 大数据的基本概念和特征\t6
1.2.1 基本概念\t6
1.2.2 基本特征\t7
1.3 大数据系统的技术支撑体系\t7
1.3.1 技术支撑体系概览\t7
1.3.2 大数据系统的采集层\t8
1.3.3 大数据系统的存储层\t9
1.3.4 大数据系统的分析层\t9
1.3.5 大数据系统的应用层\t9
1.3.6 大数据系统的垂直层\t10
1.4 大数据领域的主要职位及其能力要求\t11
1.4.1 首席数据官\t11
1.4.2 数据科学家\t11
1.4.3 大数据开发工程师\t12
1.4.4 大数据运维工程师\t13
1.5 本章小结\t13
第2章 Hadoop大数据关键技术\t15
2.1 Hadoop大数据应用生态系统\t15
2.1.1 架构的基本理论\t15
2.1.2 Hadoop大数据应用生态系统的主要组件及其关系\t16
2.2 大数据采集技术\t19
2.2.1 结构化数据采集工具\t19
2.2.2 日志收集工具与技术\t20
2.3 大数据存储技术\t23
2.3.1 相关概念\t23
2.3.2 分布式存储系统\t27
2.3.3 数据库(HBase)与数据仓库(Hive)\t30
2.4 分布式计算框架\t35
2.4.1 离线计算框架\t35
2.4.2 实时流计算平台\t40
2.5 数据分析平台与工具\t45
2.5.1 面向大数据的数据挖掘与分析工具\t45
2.5.2 机器学习\t49
2.6 本章小结\t52
第二篇 Hadoop大数据平台搭建与基本应用\t55
第3章 Linux操作系统与集群搭建\t57
3.1 Linux操作系统\t57
3.1.1 概述\t57
3.1.2 特点\t58
3.1.3 Linux操作系统的组成\t59
3.2 Linux集群的搭建\t62
3.2.1 安装VMware Workstation\t62
3.2.2 在VMware Workstation Pro 12上安装Linux(CentOS 7)\t65
3.3 集群的配置\t77
3.3.1 设置主机名\t77
3.3.2 网络设置\t79
3.3.3 关闭防火墙\t83
3.3.4 安装JDK\t84
3.3.5 免密钥登录配置\t87
3.4 Linux基本命令\t89
3.5 本章小结\t96
第4章 HDFS安装与基本应用\t97
4.1 HDFS概述\t97
4.1.1 特点\t97
4.1.2 主要组件与架构\t97
4.2 HDFS架构分析\t98
4.2.1 数据块\t98
4.2.2 NameNode\t98
4.2.3 DataNode\t99
4.2.4 SecondaryNameNode\t100
4.2.5 数据备份\t100
4.2.6 通信协议\t101
4.2.7 可靠性保证\t101
4.3 文件操作过程分析\t101
4.3.1 读文件\t101
4.3.2 写文件\t102
4.3.3 删除文件\t103
4.4 Hadoop的安装与配置\t104
4.4.1 解压Hadoop安装包\t104
4.4.2 配置Hadoop环境变量\t105
4.4.3 配置Yarn环境变量\t106
4.4.4 配置核心组件\t106
4.4.5 配置文件系统\t107
4.4.6 配置yarn site.xml文件\t108
4.4.7 配置MapReduce计算框架文件\t109
4.4.8 配置Master中的workers文件\t111
4.4.9 将Master上的Hadoop复制到Slave\t111
4.5 Hadoop集群的启动\t112
4.5.1 配置操作系统的环境变量\t112
4.5.2 创建Hadoop数据目录\t113
4.5.3 格式化文件系统\t113
4.5.4 启动和关闭Hadoop\t114
4.5.5 验证Hadoop是否成功启动\t115
4.6 Hadoop集群的基本应用\t117
4.6.1 HDFS基本命令\t117
4.6.2 在Hadoop集群中运行程序\t120
4.7 本章小结\t122
第5章 MapReduce与Yarn\t123
5.1 MapReduce程序的概念\t123
5.1.1 基本编程模型\t123
5.1.2 计算过程分析\t124
5.2 深入理解Yarn\t126
5.2.1 Yarn的基本架构\t126
5.2.2 Yarn的工作流程\t130
5.3 在Linux平台安装Eclipse\t130
5.3.1 Eclipse简介\t130
5.3.2 安装并启动Eclipse\t131
5.4 开发MapReduce程序的基本方法\t133
5.4.1 为Eclipse安装Hadoop插件\t133
5.4.2 WordCount:第一个MapReduce程序\t137
5.5 本章小结\t150
第6章 Hive和HBase的安装与应用\t151
6.1 在CentOS 7下安装MySQL\t151
6.1.1 下载或复制MySQL安装包\t151
6.1.2 执行安装命令\t152
6.1.3 启动MySQL\t153
6.1.4 登录MySQL\t153
6.1.5 使用MySQL\t154
6.1.6 问题与解决办法\t156
6.2 Hive安装与应用\t157
6.2.1 下载并解压Hive安装包\t158
6.2.2 配置Hive\t158
6.2.3 启动并验证Hive\t161
6.2.4 Hive的基本应用\t162
6.3 ZooKeeper集群安装\t163
6.3.1 ZooKeeper简介\t163
6.3.2 安装ZooKeeper\t164
6.3.3 配置ZooKeeper\t165
6.3.4 启动和测试\t166
6.4 HBase的安装与应用\t168
6.4.1 解压并安装HBase\t168
6.4.2 配置HBase\t169
6.4.3 启动并验证HBase\t171
6.4.4 HBase的基本应用\t173
6.4.5 HBase应用中常见问题及其解决办法\t175
6.5 本章小结\t176
第7章 Sqoop和Kafka的安装与应用\t177
7.1 安装部署Sqoop\t177
7.1.1 下载或复制Sqoop安装包\t177
7.1.2 解压并安装Sqoop\t177
7.1.3 配置Sqoop\t178
7.1.4 启动并验证Sqoop\t180
7.1.5 测试Sqoop与MySQL的连接\t180
7.2 安装部署Kafka集群\t182
7.2.1 下载或复制Kafka安装包\t182
7.2.2 解压缩Kafka安装包\t182
7.2.3 配置Kafka集群\t183
7.2.4 Kafka的初步应用\t184
7.3 本章小结\t188
第8章 Spark集群的安装与开发环境的配置\t189
8.1 深入理解Spark\t189
8.1.1 Spark的系统架构\t189
8.1.2 Spark的关键概念\t191
8.2 Scala的安装与配置\t193
8.2.1 下载Scala安装包\t194
8.2.2 安装Scala\t194
8.2.3 启动并应用Scala\t195
8.3 Spark集群的安装与配置\t195
8.3.1 安装模式\t195
8.3.2 Spark的安装\t196
8.3.3 启动并验证Spark\t198
8.3.4 几点说明\t202
8.4 IDEA开发环境的安装与配置\t203
8.4.1 IDEA简介\t203
8.4.2 IDEA的安装\t204
8.4.3 IDEA的配置\t205
8.5 本章小结\t208
第9章 Spark应用基础\t209
9.1 Spark应用程序的运行模式\t209
9.1.1 Spark on Yarn-cluster-\t209
9.1.2 Spark on Yarn-client\t210
9.2 Spark的应用设计\t211
9.2.1 分布式估算圆周率\t211
9.2.2 基于Spark MLlib的贷款风险预测\t226
9.3 本章小结\t242
第三篇 大数据处理与项目开发\t243
第10章 交互式数据处理\t245
10.1 数据预处理\t245
10.1.1 查看数据\t245
10.1.2 数据扩展\t247
10.1.3 数据过滤\t247
10.1.4 数据上传\t248
10.2 创建数据仓库\t249
10.2.1 创建Hive数据仓库的基本命令\t249
10.2.2 创建Hive分区表\t251
10.3 数据分析\t253
10.3.1 基本统计\t253
10.3.2 用户行为分析\t254
10.3.3 实时数据\t256
10.4 本章小结\t256
第11章 协同过滤推荐系统\t257
11.1 推荐算法概述\t257
11.1.1 基于人口统计学的推荐\t257
11.1.2 基于内容的推荐\t258
11.1.3 协同过滤推荐\t258
11.2 协同过滤推荐算法分析\t259
11.2.1 基于用户的协同过滤推荐\t259
11.2.2 基于物品的协同过滤推荐\t261
11.3 Spark MLlib推荐算法应用\t262
11.3.1 ALS算法原理\t262
11.3.2 ALS的应用设计\t264
11.4 本章小结\t277
第12章 销售数据分析系统\t279
12.1 数据采集\t279
12.1.1 在Windows平台安装JDK\t279
12.1.2 在Windows平台安装Eclipse\t281
12.1.3 将WebCollector项目导入Eclipse\t282
12.1.4 在Windows平台安装MySQL\t283
12.1.5 连接JDBC\t286
12.1.6 运行爬虫程序\t286
12.2 在HBase集群上准备数据\t287
12.2.1 将数据导入MySQL\t287
12.2.2 将MySQL表中的数据导入HBase集群\t289
12.3 安装Phoenix中间件\t291
12.3.1 Phoenix架构\t291
12.3.2 解压安装Phoenix\t293
12.3.3 Phoenix环境配置\t293
12.3.4 使用Phoenix\t294
12.4 基于Web的前端开发\t298
12.4.1 将Web前端项目导入Eclipse\t298
12.4.2 安装Tomcat\t300
12.4.3 在Eclipse中配置Tomcat\t300
12.4.4 在Web浏览器中查看执行结果\t303
12.5 本章小结\t305
参考文献307
猜您喜欢