书籍详情
大数据技术基础
作者:鄂海红,宋美娜,欧中洪 著
出版社:北京邮电大学出版社
出版时间:2019-10-01
ISBN:9787563558780
定价:¥48.00
购买这本书可以去
内容简介
《大数据技术基础》围绕大数据技术基础,重点介绍了大数据存储系统(分布式文件系统和NoSQL数据库)、大数据处理框架(Hadoop的MapReduce、Spark及实时处理框架Storm和Flink)、大数据仓库技术(Hive、Druid等)、大数据多维分析(Kylin)、大数据可视化技术和大数据综合应用等,以及当今主流的大数据平台构建技术和开源组件实践知识,可以指导读者全面、系统地掌握大数据各层的实现方案,开展各领域的大数据实践。《大数据技术基础》可作为计算机学科相关专业,特别是数据科学与大数据技术专业的教材。
作者简介
鄂海红,博士,北京邮电大学计算机学院 副教授;科技部现代服务业共性服务联盟,副秘书长;中国通信标准化协会TC11-WG1副组长。长期从事大数据工程与数据分析、机器学习与人工智能服务、云计算与分布式系统领域的研究工作,有扎实宽广的理论基础和科研项目实践能力。作为课题负责人及主研人,完成科研项目累计34项(其中,国家课题13项),累计发表SCI/EI论文62篇;申请国家发明专利34项,软著登记25项;正式发布国家行业标准16项。曾获得省部级特等奖奖励 “中国服务业科技创新奖”,教育部“高等学校科学研究优秀成果奖”二等奖、“中国通信标准化协会科学技术奖”三等奖;教育部博士点基金资助;北京市“青年英才计划”首批资助。
目录
第1章 大数据概述
本章思维导图
1.1 大数据简介
1.1.1 大数据的发展历程
1.1.2 大数据的定义与特征
1.1.3 大数据与传统数据的区别
1.2 大数据平台应具备的能力
1.3 大数据平台架构
1.4 Hadoop生态系统
1.5 大数据应用
1.5.1 互联网大数据应用
1.5.2 金融行业大数据应用
1.5.3 医疗行业大数据应用
1.5.4 智慧交通大数据应用
本章课后习题
本章参考文献
第2章 大数据存储——分布式文件系统及NoSQL数据库
本章思维导图
2.1 分布式文件系统
2.1.1 HDFS相关概念
2.1.2 HDFS体系结构
2.1.3 HDFS存储机制
2.1.4 HDFS读/写操作
2.1.5 HDFS数据导入
2.2 NoSQL数据库
2.2.1 KeyValue模型
2.2.2 KeyDocument 模型
2.2.3 KeyColumn模型
2.2.4 图模型
2.3 列族数据库
2.3.1 列族数据库简介
2.3.2 HBase的基本原理
2.3.3 HBase的数据模型
2.4 键值数据库
2.4.1 键值数据库简介
2.4.2 选择键值数据库的原因
2.4.3 Redis的数据结构简介
2.4.4 Redis的数据持久化
2.4.5 Redis的数据复制
2.5 文档数据库
2.5.1 文档数据库简介
2.5.2 MongoDB的数据类型
2.5.3 MongoDB的数据复制
2.6 图数据库
2.6.1 图数据库简介
2.6.2 图数据库的优势
2.6.3 Neo4j的基本元素与概念
2.6.4 Cypher简介
本章课后习题
本章参考文献
第3章 大数据处理——MapReduce处理框架
本章思维导图
3.1 MapReduce的发展背景
3.2 MapReduce框架
3.3 MapReduce的编程模型
3.3.1 MapReduce初析
3.3.2 MapReduce的运行机制
3.3.3 MapReduce的相关问题
3.4 MapReduce的集群调度
3.4.1 Hadoop1.x的传统集群调度框架
3.4.2 Hadoop2.x的集群调度框架YARN
3.4.3 Hadoop作业调度器
本章课后习题
本章参考文献
第4章 大数据处理——分布式内存处理框架Spark
本章思维导图
4.1 Spark简介
4.1.1 Spark介绍
4.1.2 提出Spark的原因
4.1.3 Spark中的关键术语
4.1.4 Spark的优点
4.2 Spark框架
4.2.1 Spark框架图
4.2.2 Spark运行图
4.2.3 Spark任务调度方法
4.3 RDD概念理解
4.3.1 RDD介绍
4.3.2 RDD的操作
4.3.3 RDD的存储
4.3.4 RDD分区
4.3.5 RDD优先位置
4.3.6 RDD依赖关系
4.4 RDD操作
4.4.1 RDD创建
4.4.2 转换操作
4.4.3 行动操作
4.5 Scala语言
4.5.1 Scala介绍
4.5.2 Scala基本语法
4.5.3 Scala编写Spark示例
4.6 Spark SQL简介
4.6.1 Spark SQL与Shark的对比
4.6.2 Spark SQL的优势
4.6.3 Spark SQL生态
4.7 MLlib简介
4.7.1 MLlib介绍
4.7.2 MLlib支持机器学习算法
本章课后习题
本章参考文献
第5章 大数据处理——实时处理框架
本章思维导图
5.1 实时处理架构
5.1.1 基本概念
5.1.2 批量和流式计算
5.1.3 系统生态简介
5.2 Storm框架
5.2.1 Storm的基本术语和概念
5.2.2 Storm特性及运行原理
5.2.3 消息的生命周期
5.2.4 消息的可靠性保障
5.3 Flume分布式日志收集
5.3.1 Flume的基本术语和概念
5.3.2 源
5.3.3 通道
5.3.4 接收器
5.4 Kafka分布式消息队列
5.4.1 Kafka的基本术语和概念
5.4.2 生产者
5.4.3 消费者
5.4.4 数据传递的可靠性保障
5.5 Spark Streaming框架
5.5.1 Spark Streaming架构
5.5.2 输入数据源
5.5.3 DStream的转换操作
5.5.4 输出存储
5.5.5 容错机制
5.6 Flink框架
5.6.1 Flink架构
5.6.2 Client
5.6.3 JobManager
5.6.4 TaskManager
本章课后习题
本章参考文献
第6章 大数据查询——分布式数据查询
本章思维导图
6.1 分布式数据查询简介
6.2 Hive分布式数据仓库
6.2.1 Hive概述
6.2.2 Hive内部介绍
6.2.3 Hive架构介绍
6.2.4 HiveQL:数据定义
6.2.5 HiveQL:数据导入
6.2.6 HiveQL:查询
6.3 Druid时序数据仓储
6.3.1 Druid概述
6.3.2 架构详解
6.3.3 数据摄入
6.3.4 数据查询
6.4 Drill分布式实时查询
6.4.1 使用Apache Drill的原因
6.4.2 Drill架构与原理
6.4.3 Drill核心模块
6.4.4 使用Drill实现查询
本章课后习题
本章参考文献
第7章 大数据分析——Kylin分布式多维数据分析
本章思维导图
7.1 使用Apache Kylin的原因
7.2 Kylin学习的前奏
7.2.1 数据仓库的概念与产生需求
7.2.2 数据仓库与数据分析型系统
7.2.3 多维数据分析
7.2.4 OLAP与数据立方体
7.3 Kylin工作原理
7.3.1 Cube与Cuboid
7.3.2 工作流程
7.4 Kylin架构
7.5 Kylin快速入门
7.5.1 在Hive中准备数据
7.5.2 设计数据模型
7.5.3 创建Cube
7.5.4 构建Cube
7.5.5 查询Cube
7.6 增量构建
7.6.1 设计增量Cube
7.6.2 触发增量构建
7.6.3 管理Cube碎片
7.7 查询和可视化
7.7.1 Web GUI
7.7.2 Rest API
7.7.3 ODBC
7.7.4 通过Tableau访问Kylin
7.8 Cube优化
本章课后习题
本章参考文献
第8章 数据可视化
本章思维导图
8.1 数据可视化定义及分类
8.1.1 数据可视化定义
8.1.2 数据可视化分类
8.2 数据可视化基础
8.2.1 数据可视化流程
8.2.2 可视化中的数据
8.2.3 可视化的基本图表
8.2.4 视图的交互
8.3 信息可视化分类
8.3.1 时空数据可视化
8.3.2 层次和网络数据可视化
8.3.3 文本和文档可视化
8.4 在商业智能中的数据可视化应用
8.4.1 商业智能可视化的基本元素
8.4.2 仪表盘的设计准则
8.5 数据可视化的实现
8.5.1 数据可视化工具
8.5.2 ECharts
8.5.3 Plotly
本章课后习题
本章参考文献
第9章 大数据应用系统案例——互联网应用大数据系统构建
本章思维导图
9.1 互联网业务背景介绍
9.2 案例的大数据平台技术体系架构
9.2.1 数据采集
9.2.2 数据存储
9.2.3 数据计算
9.2.4 数据应用
本章课后习题
本章参考文献
本章思维导图
1.1 大数据简介
1.1.1 大数据的发展历程
1.1.2 大数据的定义与特征
1.1.3 大数据与传统数据的区别
1.2 大数据平台应具备的能力
1.3 大数据平台架构
1.4 Hadoop生态系统
1.5 大数据应用
1.5.1 互联网大数据应用
1.5.2 金融行业大数据应用
1.5.3 医疗行业大数据应用
1.5.4 智慧交通大数据应用
本章课后习题
本章参考文献
第2章 大数据存储——分布式文件系统及NoSQL数据库
本章思维导图
2.1 分布式文件系统
2.1.1 HDFS相关概念
2.1.2 HDFS体系结构
2.1.3 HDFS存储机制
2.1.4 HDFS读/写操作
2.1.5 HDFS数据导入
2.2 NoSQL数据库
2.2.1 KeyValue模型
2.2.2 KeyDocument 模型
2.2.3 KeyColumn模型
2.2.4 图模型
2.3 列族数据库
2.3.1 列族数据库简介
2.3.2 HBase的基本原理
2.3.3 HBase的数据模型
2.4 键值数据库
2.4.1 键值数据库简介
2.4.2 选择键值数据库的原因
2.4.3 Redis的数据结构简介
2.4.4 Redis的数据持久化
2.4.5 Redis的数据复制
2.5 文档数据库
2.5.1 文档数据库简介
2.5.2 MongoDB的数据类型
2.5.3 MongoDB的数据复制
2.6 图数据库
2.6.1 图数据库简介
2.6.2 图数据库的优势
2.6.3 Neo4j的基本元素与概念
2.6.4 Cypher简介
本章课后习题
本章参考文献
第3章 大数据处理——MapReduce处理框架
本章思维导图
3.1 MapReduce的发展背景
3.2 MapReduce框架
3.3 MapReduce的编程模型
3.3.1 MapReduce初析
3.3.2 MapReduce的运行机制
3.3.3 MapReduce的相关问题
3.4 MapReduce的集群调度
3.4.1 Hadoop1.x的传统集群调度框架
3.4.2 Hadoop2.x的集群调度框架YARN
3.4.3 Hadoop作业调度器
本章课后习题
本章参考文献
第4章 大数据处理——分布式内存处理框架Spark
本章思维导图
4.1 Spark简介
4.1.1 Spark介绍
4.1.2 提出Spark的原因
4.1.3 Spark中的关键术语
4.1.4 Spark的优点
4.2 Spark框架
4.2.1 Spark框架图
4.2.2 Spark运行图
4.2.3 Spark任务调度方法
4.3 RDD概念理解
4.3.1 RDD介绍
4.3.2 RDD的操作
4.3.3 RDD的存储
4.3.4 RDD分区
4.3.5 RDD优先位置
4.3.6 RDD依赖关系
4.4 RDD操作
4.4.1 RDD创建
4.4.2 转换操作
4.4.3 行动操作
4.5 Scala语言
4.5.1 Scala介绍
4.5.2 Scala基本语法
4.5.3 Scala编写Spark示例
4.6 Spark SQL简介
4.6.1 Spark SQL与Shark的对比
4.6.2 Spark SQL的优势
4.6.3 Spark SQL生态
4.7 MLlib简介
4.7.1 MLlib介绍
4.7.2 MLlib支持机器学习算法
本章课后习题
本章参考文献
第5章 大数据处理——实时处理框架
本章思维导图
5.1 实时处理架构
5.1.1 基本概念
5.1.2 批量和流式计算
5.1.3 系统生态简介
5.2 Storm框架
5.2.1 Storm的基本术语和概念
5.2.2 Storm特性及运行原理
5.2.3 消息的生命周期
5.2.4 消息的可靠性保障
5.3 Flume分布式日志收集
5.3.1 Flume的基本术语和概念
5.3.2 源
5.3.3 通道
5.3.4 接收器
5.4 Kafka分布式消息队列
5.4.1 Kafka的基本术语和概念
5.4.2 生产者
5.4.3 消费者
5.4.4 数据传递的可靠性保障
5.5 Spark Streaming框架
5.5.1 Spark Streaming架构
5.5.2 输入数据源
5.5.3 DStream的转换操作
5.5.4 输出存储
5.5.5 容错机制
5.6 Flink框架
5.6.1 Flink架构
5.6.2 Client
5.6.3 JobManager
5.6.4 TaskManager
本章课后习题
本章参考文献
第6章 大数据查询——分布式数据查询
本章思维导图
6.1 分布式数据查询简介
6.2 Hive分布式数据仓库
6.2.1 Hive概述
6.2.2 Hive内部介绍
6.2.3 Hive架构介绍
6.2.4 HiveQL:数据定义
6.2.5 HiveQL:数据导入
6.2.6 HiveQL:查询
6.3 Druid时序数据仓储
6.3.1 Druid概述
6.3.2 架构详解
6.3.3 数据摄入
6.3.4 数据查询
6.4 Drill分布式实时查询
6.4.1 使用Apache Drill的原因
6.4.2 Drill架构与原理
6.4.3 Drill核心模块
6.4.4 使用Drill实现查询
本章课后习题
本章参考文献
第7章 大数据分析——Kylin分布式多维数据分析
本章思维导图
7.1 使用Apache Kylin的原因
7.2 Kylin学习的前奏
7.2.1 数据仓库的概念与产生需求
7.2.2 数据仓库与数据分析型系统
7.2.3 多维数据分析
7.2.4 OLAP与数据立方体
7.3 Kylin工作原理
7.3.1 Cube与Cuboid
7.3.2 工作流程
7.4 Kylin架构
7.5 Kylin快速入门
7.5.1 在Hive中准备数据
7.5.2 设计数据模型
7.5.3 创建Cube
7.5.4 构建Cube
7.5.5 查询Cube
7.6 增量构建
7.6.1 设计增量Cube
7.6.2 触发增量构建
7.6.3 管理Cube碎片
7.7 查询和可视化
7.7.1 Web GUI
7.7.2 Rest API
7.7.3 ODBC
7.7.4 通过Tableau访问Kylin
7.8 Cube优化
本章课后习题
本章参考文献
第8章 数据可视化
本章思维导图
8.1 数据可视化定义及分类
8.1.1 数据可视化定义
8.1.2 数据可视化分类
8.2 数据可视化基础
8.2.1 数据可视化流程
8.2.2 可视化中的数据
8.2.3 可视化的基本图表
8.2.4 视图的交互
8.3 信息可视化分类
8.3.1 时空数据可视化
8.3.2 层次和网络数据可视化
8.3.3 文本和文档可视化
8.4 在商业智能中的数据可视化应用
8.4.1 商业智能可视化的基本元素
8.4.2 仪表盘的设计准则
8.5 数据可视化的实现
8.5.1 数据可视化工具
8.5.2 ECharts
8.5.3 Plotly
本章课后习题
本章参考文献
第9章 大数据应用系统案例——互联网应用大数据系统构建
本章思维导图
9.1 互联网业务背景介绍
9.2 案例的大数据平台技术体系架构
9.2.1 数据采集
9.2.2 数据存储
9.2.3 数据计算
9.2.4 数据应用
本章课后习题
本章参考文献
猜您喜欢