书籍详情
Spark入门与大数据分析实战
作者:迟殿委 李超
出版社:清华大学出版社
出版时间:2023-07-01
ISBN:9787302637981
定价:¥79.00
购买这本书可以去
内容简介
《Spark入门与大数据分析实战》基于Spark 3.3.1框架展开,系统介绍Spark生态系统各组件的操作,以及相应的大数据分析方法。《Spark入门与大数据分析实战》各章节均提供丰富的示例及其详细的操作步骤,并配套示例源码、PPT课件和教学大纲。《Spark入门与大数据分析实战》共分11章,内容包括Scala编程基础、Spark框架全生态体验、Spark RDD、Spark SQL、Kafka、Spark Streaming、Spark ML、Spark GraphX、Redis等技术框架和应用,并通过广告点击实时大数据分析和电影影评大数据分析两个综合项目进行实战提升。《Spark入门与大数据分析实战》适合Spark框架初学者,既可以作为大数据分析技术、大数据应用开发工程师的查询手册,也可以作为高等院校或高职高专计算机技术、软件工程、数据科学与大数据科学、智能科学与技术、人工智能等专业大数据课程的教材。
作者简介
迟殿委,计算机软件与理论专业硕士,系统架构设计师。有多年企业软件研发经验和丰富的JavaEE、大数据技术培训经验,熟练掌握JavaEE与大数据全栈技术框架,擅长JavaEE系统架构设计、大数据分析与挖掘。著有图书《Hive入门与大数据分析实战》《Hadoop大数据分析技术》《Hadoop Spark大数据分析实战》《Spring Boot企业级开发实战(视频教学版)》《深入浅出Java编程》《Spring Boot Spring Cloud微服务开发》。
目录
第1章 Spark开发之Scala编程基础 1
1.1 开发环境搭建 1
1.2 基础语法 4
1.3 函数 7
1.4 控制语句 9
1.5 函数式编程 12
1.6 模式匹配 17
1.7 类和对象 18
1.8 异常处理 22
1.9 Trait(特征) 23
1.10 文件I/O 24
第2章 Spark框架全生态体验 26
2.1 Spark概述 26
2.1.1 关于Spark 26
2.1.2 Spark的基本概念 27
2.1.3 Spark集群模式 28
2.2 Linux环境搭建 33
2.2.1 VirtualBox虚拟机安装 33
2.2.2 安装Linux操作系统 35
2.2.3 SSH工具与使用 42
2.2.4 Linux统一设置 43
2.3 Hadoop安装与配置 45
2.3.1 Hadoop安装环境准备 45
2.3.2 Hadoop伪分布式安装 49
2.3.3 Hadoop完全分布式环境搭建 55
2.4 Spark安装与配置 60
2.4.1 本地模式安装 61
2.4.2 伪分布模式安装 63
2.4.3 完全分布模式安装 66
2.4.4 Spark on YARN 68
2.5 spark-submit 72
2.5.1 使用spark-submit提交 72
2.5.2 spark-submit参数说明 73
2.6 DataFrame 75
2.6.1 DataFrame概述 75
2.6.2 DataFrame的基础应用 77
2.7 Spark SQL 82
2.7.1 快速示例 83
2.7.2 read和write 87
2.8 Spark Streaming 89
2.9 共享变量 92
2.9.1 广播变量 92
2.9.2 累加器 93
第3章 Spark RDD弹性分布式数据集 94
3.1 什么是RDD 94
3.2 RDD的主要属性 95
3.3 RDD的特点 96
3.3.1 弹性 96
3.3.2 分区 96
3.3.3 只读 96
3.3.4 依赖(血缘) 96
3.3.5 缓存 98
3.3.6 checkpoint 99
3.4 RDD的创建与处理过程 99
3.4.1 RDD的创建 99
3.4.2 RDD的处理过程 99
3.4.3 RDD的算子 100
3.4.4 常见的转换算子 100
3.4.5 常见的行动算子 105
第4章 Spark SQL结构化数据文件处理 109
4.1 Spark SQL概述 109
4.1.1 什么是Spark SQL 109
4.1.2 Spark SQL的特点 110
4.1.3 什么是DataFrame 111
4.1.4 什么是DataSet 112
4.2 Spark SQL 编程 112
4.2.1 SparkSession 112
4.2.2 使用DataFrame进行编程 113
4.2.3 使用DataSet进行编程 118
4.2.4 DataFrame和DataSet之间的交互 120
4.2.5 使用IDEA创建Spark SQL程序 120
4.2.6 自定义Spark SQL函数 121
4.3 Spark SQL数据源 122
4.3.1 通用加载和保存函数 122
4.3.2 加载JSON文件 123
4.3.3 读取Parquet文件 124
4.3.4 JDBC 124
第5章 Kafka实战 127
5.1 Kafka的特点 128
5.2 Kafka术语 129
5.3 Kafka单机部署 130
5.4 Kafka集群部署 137
第6章 Spark Streaming实时计算 142
6.1 Spark Streaming概述 142
6.1.1 Spark Streaming是什么 142
6.1.2 Spark Streaming特点 143
6.1.3 Spark Streaming架构 144
6.2 DStream入门 144
6.2.1 WordCount案例 145
6.2.2 WordCount案例解析 146
6.3 DStream创建 147
6.3.1 RDD队列 147
6.3.2 自定义数据源 148
6.3.3 Kafka 数据源 150
6.4 DStream实战 151
6.4.1 从端口读取数据 151
6.4.2 FileStream 151
6.4.3 窗口函数 153
6.4.4 updateStateByKey 154
6.5 Structured Streaming 157
6.5.1 概述 157
6.5.2 快速示例 157
第7章 Spark ML机器学习 161
7.1 机器学习 161
7.2 Spark ML 163
7.3 典型机器学习流程介绍 163
7.3.1 提出问题 163
7.3.2 假设函数 164
7.3.3 损失函数 165
7.3.4 训练模型确定参数 166
7.4 经典算法模型实战 166
7.4.1 聚类算法实战 166
7.4.2 回归算法实战 170
7.4.3 协同过滤算法实战 172
7.4.4 分类算法实战 178
第8章 Spark GraphX图计算 183
8.1 Spark GraphX 183
8.2 Spark GraphX的抽象 184
8.3 Spark GraphX图的构建 185
8.4 Spark GraphX图的计算模式 187
8.5 GraphX 3个主要算法实战 189
8.6 GraphX综合应用项目实战 192
第9章 Redis数据库入门 200
9.1 Redis环境安装 200
9.1.1 简介 200
9.1.2 安装 201
9.1.3 Java客户端 202
9.2 Redis常见数据类型 202
9.2.1 key 202
9.2.2 string类型 204
9.2.3 list 205
9.2.4 set 206
9.2.5 sorted set 208
9.2.6 hash 209
9.3 Redis排序 210
9.4 Redis事务 213
9.5 Redis发布订阅及示例 216
9.6 Redis持久化 219
第10章 广告点击实时大数据分析项目实战 221
10.1 项目环境准备 221
10.2 数据生成模块 226
10.3 从Kafka读取数据 230
10.3.1 bean类AdsInfo 230
10.3.2 工具类MyKafkaUtil 230
10.3.3 从Kafka消费数据 231
10.4 数据统计实现 233
10.4.1 每天每地区热门广告点击率Top3 233
10.4.2 最近1小时内广告点击量实时统计 234
第11章 电影影评大数据分析项目实战 237
11.1 项目介绍 237
11.2 项目实现 238
11.2.1 公共代码开发 241
11.2.2 平均评分最高的前10部电影 244
11.2.3 电影类别及其平均评分 247
11.2.4 评分次数最多的前10部电影 249
1.1 开发环境搭建 1
1.2 基础语法 4
1.3 函数 7
1.4 控制语句 9
1.5 函数式编程 12
1.6 模式匹配 17
1.7 类和对象 18
1.8 异常处理 22
1.9 Trait(特征) 23
1.10 文件I/O 24
第2章 Spark框架全生态体验 26
2.1 Spark概述 26
2.1.1 关于Spark 26
2.1.2 Spark的基本概念 27
2.1.3 Spark集群模式 28
2.2 Linux环境搭建 33
2.2.1 VirtualBox虚拟机安装 33
2.2.2 安装Linux操作系统 35
2.2.3 SSH工具与使用 42
2.2.4 Linux统一设置 43
2.3 Hadoop安装与配置 45
2.3.1 Hadoop安装环境准备 45
2.3.2 Hadoop伪分布式安装 49
2.3.3 Hadoop完全分布式环境搭建 55
2.4 Spark安装与配置 60
2.4.1 本地模式安装 61
2.4.2 伪分布模式安装 63
2.4.3 完全分布模式安装 66
2.4.4 Spark on YARN 68
2.5 spark-submit 72
2.5.1 使用spark-submit提交 72
2.5.2 spark-submit参数说明 73
2.6 DataFrame 75
2.6.1 DataFrame概述 75
2.6.2 DataFrame的基础应用 77
2.7 Spark SQL 82
2.7.1 快速示例 83
2.7.2 read和write 87
2.8 Spark Streaming 89
2.9 共享变量 92
2.9.1 广播变量 92
2.9.2 累加器 93
第3章 Spark RDD弹性分布式数据集 94
3.1 什么是RDD 94
3.2 RDD的主要属性 95
3.3 RDD的特点 96
3.3.1 弹性 96
3.3.2 分区 96
3.3.3 只读 96
3.3.4 依赖(血缘) 96
3.3.5 缓存 98
3.3.6 checkpoint 99
3.4 RDD的创建与处理过程 99
3.4.1 RDD的创建 99
3.4.2 RDD的处理过程 99
3.4.3 RDD的算子 100
3.4.4 常见的转换算子 100
3.4.5 常见的行动算子 105
第4章 Spark SQL结构化数据文件处理 109
4.1 Spark SQL概述 109
4.1.1 什么是Spark SQL 109
4.1.2 Spark SQL的特点 110
4.1.3 什么是DataFrame 111
4.1.4 什么是DataSet 112
4.2 Spark SQL 编程 112
4.2.1 SparkSession 112
4.2.2 使用DataFrame进行编程 113
4.2.3 使用DataSet进行编程 118
4.2.4 DataFrame和DataSet之间的交互 120
4.2.5 使用IDEA创建Spark SQL程序 120
4.2.6 自定义Spark SQL函数 121
4.3 Spark SQL数据源 122
4.3.1 通用加载和保存函数 122
4.3.2 加载JSON文件 123
4.3.3 读取Parquet文件 124
4.3.4 JDBC 124
第5章 Kafka实战 127
5.1 Kafka的特点 128
5.2 Kafka术语 129
5.3 Kafka单机部署 130
5.4 Kafka集群部署 137
第6章 Spark Streaming实时计算 142
6.1 Spark Streaming概述 142
6.1.1 Spark Streaming是什么 142
6.1.2 Spark Streaming特点 143
6.1.3 Spark Streaming架构 144
6.2 DStream入门 144
6.2.1 WordCount案例 145
6.2.2 WordCount案例解析 146
6.3 DStream创建 147
6.3.1 RDD队列 147
6.3.2 自定义数据源 148
6.3.3 Kafka 数据源 150
6.4 DStream实战 151
6.4.1 从端口读取数据 151
6.4.2 FileStream 151
6.4.3 窗口函数 153
6.4.4 updateStateByKey 154
6.5 Structured Streaming 157
6.5.1 概述 157
6.5.2 快速示例 157
第7章 Spark ML机器学习 161
7.1 机器学习 161
7.2 Spark ML 163
7.3 典型机器学习流程介绍 163
7.3.1 提出问题 163
7.3.2 假设函数 164
7.3.3 损失函数 165
7.3.4 训练模型确定参数 166
7.4 经典算法模型实战 166
7.4.1 聚类算法实战 166
7.4.2 回归算法实战 170
7.4.3 协同过滤算法实战 172
7.4.4 分类算法实战 178
第8章 Spark GraphX图计算 183
8.1 Spark GraphX 183
8.2 Spark GraphX的抽象 184
8.3 Spark GraphX图的构建 185
8.4 Spark GraphX图的计算模式 187
8.5 GraphX 3个主要算法实战 189
8.6 GraphX综合应用项目实战 192
第9章 Redis数据库入门 200
9.1 Redis环境安装 200
9.1.1 简介 200
9.1.2 安装 201
9.1.3 Java客户端 202
9.2 Redis常见数据类型 202
9.2.1 key 202
9.2.2 string类型 204
9.2.3 list 205
9.2.4 set 206
9.2.5 sorted set 208
9.2.6 hash 209
9.3 Redis排序 210
9.4 Redis事务 213
9.5 Redis发布订阅及示例 216
9.6 Redis持久化 219
第10章 广告点击实时大数据分析项目实战 221
10.1 项目环境准备 221
10.2 数据生成模块 226
10.3 从Kafka读取数据 230
10.3.1 bean类AdsInfo 230
10.3.2 工具类MyKafkaUtil 230
10.3.3 从Kafka消费数据 231
10.4 数据统计实现 233
10.4.1 每天每地区热门广告点击率Top3 233
10.4.2 最近1小时内广告点击量实时统计 234
第11章 电影影评大数据分析项目实战 237
11.1 项目介绍 237
11.2 项目实现 238
11.2.1 公共代码开发 241
11.2.2 平均评分最高的前10部电影 244
11.2.3 电影类别及其平均评分 247
11.2.4 评分次数最多的前10部电影 249
猜您喜欢