Spark大数据分析技术(Python版 微课版)
作者:曹洁
出版社:清华大学出版社
出版时间:2023-03-01
ISBN:9787302625520
定价:¥59.00
第1章 大数据技术概述
1.1 大数据的基本概念
1.1.1 大数据的定义
1.1.2 大数据的特征
1.1.3 大数据思维
1.2 代表性大数据技术
1.2.1 Hadoop
1.2.2 Spark
1.2.3 Flink
1.3 大数据编程语言
1.4 在线资源
1.5 拓展阅读——三次信息化浪潮的启示
1.6 习题
第2章 Spark大数据处理框架
2.1 Spark概述
2.1.1 Spark的产生背景
2.1.2 Spark的优点
2.1.3 Spark的应用场景
2.1.4 Spark的生态系统
2.2 Spark运行机制
2.2.1 Spark基本概念
2.2.2 Spark运行架构
2.3 在VirtualBox上安装Linux集群
2.3.1 Master节点的安装
2.3.2 虚拟机克隆安装Slavel节点
2.4 Hadoop安装前的准备工作
2.4.1 创建hadoop用户和更新APT
2.4.2 安装SSH、配置SSH无密码登录
2.4.3 安装Java环境
2.4.4 Linux系统下Scala版本的Eclipse的安装与配置
2.4.5 Eclipse环境下Java程序开发实例
2.5 Hadoop的安装与配置
2.5.1 下载Hadoop安装文件
2.5.2 Hadoop单机模式配置
2.5.3 Hadoop伪分布式模式配置
2.5.4 Hadoop分布式模式配置
2.6 Spark的安装与配置
2.6.1 下载Spark安装文件
2.6.2 单机模式配置
2.6.3 伪分布式模式配置
2.7 使用PySpark编写Python代码
2.8 安装pip工具和常用的数据分析库
2.9 安装Anaconda和配置Jupyter Notebook
2.9.1 安装Anaconda
2.9.2 配置Jupyter Notebook
2.9.3 运行Jupyter Notebook
2.9.4 配置Jupyter Notebook实现和PySpark交互
2.9.5 为Anaconda安装扩展库
2.10 拓展阅读——Spark诞生的启示
2.11 习题
……
第3章 Spark RDD编程
第4章 Spark SQL结构化数据处理
第5章 HBase分布式数据库
第6章 Spark Streaming流计算
第7章 Spark MLlib机器学习
第8章 数据可视化
参考文献