大数据开发基础与实践(微课版)
作者:黄天春,刘振栋,宋建华,周希宸,阳攀,曹勇
出版社:清华大学出版社
出版时间:2022-06-01
ISBN:9787302606932
定价:¥39.00
项目1 大数据集群环境搭建 1
【项目知识】 2
知识1.1 大数据处理框架 2
1.1.1 大数据的基本概念 2
1.1.2 大数据处理框架分类 3
1.1.3 大数据处理框架的选择 3
知识1.2 组件介绍 4
1.2.1 Hadoop分布式系统框架 4
1.2.2 Hadoop生态圈 4
1.2.3 Hadoop典型应用架构 5
【项目实施】 6
任务1 安装Linux系统 6
【1】任务简介 6
【2】相关知识 6
【3】任务实施 6
【4】任务拓展 16
任务2 安装JDK 1.8 16
【1】任务简介 16
【2】相关知识 16
【3】任务实施 16
【4】任务拓展 18
任务3 安装Zookeeper 19
【1】任务简介 19
【2】相关知识 19
【3】任务实施 20
【4】任务拓展 22
任务4 安装Hadoop 23
【1】任务简介 23
【2】相关知识 23
【3】任务实施 25
【4】任务拓展 29
任务5 安装HBase 30
【1】任务简介 30
【2】相关知识 30
【3】任务实施 36
【4】任务拓展 40
任务6 安装Spark 40
【1】任务简介 40
【2】相关知识 40
【3】任务实施 40
【4】任务拓展 43
任务7 安装Sqoop 43
【1】任务简介 43
【2】相关知识 43
【3】任务实施 44
【4】任务拓展 46
任务8 安装Flume 46
【1】任务简介 46
【2】相关知识 47
【3】任务实施 47
【4】任务拓展 48
项目2 数据仓库构建 49
【项目知识】 50
知识2.1 数据仓库 50
2.1.1 数据仓库的基本概念 50
2.1.2 数据仓库的特点 50
2.1.3 数据仓库的建立过程 51
知识2.2 Hadoop环境下数据仓库的组件介绍 51
2.2.1 Hadoop MySQL Hive数据仓库的架构 51
2.2.2 MySQL介绍 52
2.2.3 Hive介绍 52
【项目实施】 54
任务1 安装MySQL数据库 54
【1】任务简介 54
【2】相关知识 54
【3】任务实施 54
【4】任务拓展 56
任务2 安装Hive 57
【1】任务简介 57
【2】相关知识 57
【3】任务实施 57
【4】任务拓展 59
项目3 Java访问Hadoop实践 61
【项目知识】 62
知识3.1 HDFS基础知识 62
3.1.1 HDFS的基本概念 62
3.1.2 HDFS的Java访问接口 62
3.1.3 Java访问HDFS主要编程步骤 63
知识3.2 MapReduce基础知识 63
3.2.1 MapReduce概述 63
3.2.2 MapReduce编程模型 63
3.2.3 MapReduce编程组件 64
【项目实施】 64
任务1 基础开发环境准备 64
【1】任务简介 64
【2】相关知识 65
【3】任务实施 65
任务2 HDFS Java程序开发 66
【1】任务简介 66
【2】相关知识 66
【3】任务实施 66
【4】任务拓展 69
任务3 基于HDFS实现网络云盘开发 70
【1】任务简介 70
【2】相关知识 70
【3】任务实施 71
【4】任务拓展 83
任务4 MapReduce离线计算之词频统计 83
【1】任务简介 83
【2】相关知识 83
【3】任务实施 84
【4】任务拓展 89
任务5 MapReduce离线计算之排序 90
【1】任务简介 90
【2】相关知识 90
【3】任务实施 90
【4】任务拓展 96
项目4 大数据采集实践 97
【项目知识】 98
知识4.1 数据采集基础知识 98
4.1.1 数据采集技术综述 98
4.1.2 数据采集的方式 98
知识4.2 网络爬虫基础知识 98
4.2.1 网络爬虫的定义 98
4.2.2 网络爬虫的原理 99
4.2.3 网络爬虫的分类 99
4.2.4 网络爬取策略分类 100
4.2.5 简单网络爬虫的架构 100
4.2.6 网页内容解析技术 100
【项目实施】 101
任务1 Python开发环境配置 101
【1】任务简介 101
【2】相关知识 101
【3】任务实施 101
【4】任务拓展 107
任务2 利用urllib获取新闻信息 107
【1】任务简介 107
【2】相关知识 107
【3】任务实施 108
【4】任务拓展 111
任务3 利用Requests进行图片爬取 111
【1】任务简介 111
【2】相关知识 111
【3】任务实施 111
【4】任务拓展 112
任务4 浏览器伪装与XPath解析 113
【1】任务介绍 113
【2】相关知识 113
【3】任务实施 113
【4】任务拓展 114
项目5 大数据清洗实践 115
【项目知识】 116
知识5.1 大数据清洗的概念 116
知识5.2 大数据清洗的目的 117
知识5.3 大数据清洗的技术 118
知识5.4 大数据清洗的路径 121
【项目实施】 122
任务1 基于Web信息的清洗 122
【1】任务简介 122
【2】相关知识 122
【3】任务实施 126
【4】任务拓展 136
任务2 基于Kettle的数据清洗 136
【1】任务简介 136
【2】相关知识 136
【3】任务实施 137
【4】任务拓展 140
项目6 大数据分析实践 141
【项目知识】 142
知识6.1 大数据分析的概念 142
知识6.2 大数据分析的工具 142
知识6.3 大数据分析的方法 142
知识6.4 大数据分析的范畴 144
知识6.5 大数据分析的步骤 144
【项目实施】 145
任务1 利用Hive对电商数据进行分析 145
【1】任务简介 145
【2】相关知识 146
【3】任务实施 148
【4】任务拓展 150
任务2 利用Spark SQL对MySQL数据进行分析 150
【1】任务简介 150
【2】相关知识 150
【3】任务实施 152
【4】任务拓展 156
项目7 大数据可视化实践 157
【项目知识】 158
知识7.1 大数据可视化的概念 158
知识7.2 大数据可视化常用工具 159
【项目实施】 172
任务1 利用Excel对数据进行可视化 172
【1】任务简介 172
【2】相关知识 172
【3】任务实施 172
【4】任务拓展 176
任务2 利用ECharts对数据进行可视化 176
【1】任务简介 176
【2】相关知识 176
【3】任务实施 179
【4】任务拓展 184
任务3 大数据分析处理可视化综合实践 184
【1】任务简介 184
【2】相关知识 185
【3】任务实施 185
【4】任务拓展 201
参考文献 202