书籍详情
大数据技术导论
作者:程显毅 著
出版社:机械工业出版社
出版时间:2019-04-01
ISBN:9787111621713
定价:¥39.00
购买这本书可以去
内容简介
本书以面向应用、面向实战为指导思想,紧扣企业技术人才培养的特点,在知识点讲解和实验中避免复杂的理论,使读者能快速上手体验、验证大数据处理的魅力,以激发读者的学习兴趣。 本书覆盖了大数据生命周期中的主要技术要点,全书共8章,第1章介绍大数据的产生和特点及思维的变革,第2章了解大数据生态系统,第3~7章按照大数据的生命周期,分别讨论大数据采集与预处理、大数据管理、大数据分析、大数据可视化、大数据应用的基本原理和方法,第8章讨论大数据安全面临的挑战。 本书可作为本科、高职院校大数据技术或数据科学课程的参考书或教材,也可供数据科学相关技术人员阅读。
作者简介
暂缺《大数据技术导论》作者简介
目录
目 录
前言
第1章 概论1
1.1 揭秘大数据1
1.1.1 大数据产生历史必然1
1.1.2 大数据概念和特征2
1.1.3 大数据生命周期3
1.1.4 大数据与物联网、云计算、人工智能5
1.1.5 大数据时代的八个重大变革5
1.2 Linux系统概述7
1.2.1 Linux版本7
1.2.2 Linux系统目录结构7
1.2.3 文本编辑器vi9
1.2.4 文件权限解读10
1.2.5 Linux系统常用命令11
习题112
实验报告1 Linux实验13
第2章 大数据生态系统15
2.1 认识Hadoop15
2.2 HDFS16
2.2.1 HDFS体系结构16
2.2.2 HDFS存储原理17
2.2.3 HDFS常用操作20
2.3 MapReduce21
2.3.1 MapReduce逻辑结构21
2.3.2 MapReduce操作案例23
*2.4 Zookeeper24
习题225
实验报告2 Hadoop实验27
第3章 大数据采集与预处理29
3.1 数据29
3.1.1 数据是什么29
3.1.2 数据分类29
3.1.3 度量和维度31
3.2 数据采集32
3.2.1 数据采集分类32
3.2.2 数据采集方法32
3.2.3 数据采集工具32
3.3 数据清洗34
3.3.1 数据清洗任务34
3.3.2 数据清洗过程34
3.4 数据变换35
3.4.1 规范化36
3.4.2 函数变换36
3.5 网络爬虫37
3.5.1 爬虫简介37
*3.5.2 论坛爬虫源代码分析38
习题340
*实验报告3 网络爬虫41
第4章 大数据管理42
4.1 NoSQL42
4.1.1 NoSQL概述42
4.1.2 键值数据库43
4.1.3 图数据库44
4.1.4 文档数据库45
4.1.5 列式数据库47
4.1.6 云数据库47
4.2 HBase47
4.2.1 HBase模型47
4.2.2 HBase与传统关系数据库的对比分析49
4.2.3 HBase系统架构49
4.2.4 HBase常用Shell命令51
习题452
实验报告4 HBase实验53
第5章 大数据分析54
5.1 大数据分析概述54
5.1.1 数据分析原则54
5.1.2 大数据分析特点54
5.1.3 大数据分析流程55
5.1.4 数据分析师基本技能和素质57
*5.1.5 大数据分析难点58
*5.2 业务理解59
5.2.1 什么是业务理解59
5.2.2 如何理解业务60
5.2.3 数据业务化61
5.3 数据认知63
5.3.1 数据预处理63
5.3.2 概率分析63
*5.3.3 对比分析67
*5.3.4 细分分析68
*5.3.5 交叉分析69
5.3.6 相关分析69
5.4 特征工程72
5.4.1 特征工程面临的挑战72
5.4.2 特征选择72
5.4.3 特征提取72
5.4.4 指标设计73
5.5 数据建模76
5.5.1 模型分类76
5.5.2 决策树77
5.5.3 关联分析81
5.5.4 回归分析82
5.5.5 聚类分析85
*5.5.6 k-邻近分类算法KNN86
*5.6 通用计算引擎Spark86
5.6.1 Spark简介86
5.6.2 Spark与Hadoop差异88
5.6.3 Spark适用场景88
5.6.4 Spark运行模式89
5.6.5 Spark常用术语89
5.7 大数据分析引擎Hive89
5.7.1 数据仓库概念89
5.7.2 传统数据仓库的问题90
5.7.3 Hive特征90
5.7.4 Hive系统架构90
5.7.5 Hive应用案例91
习题595
实验报告5 Hive实验101
第6章 大数据可视化102
6.1 数据可视化基本概念102
6.1.1 为什么要数据可视化102
6.1.2 什么是数据可视化103
6.1.3 数据可视化的作用104
6.1.4 数据可视化术语104
6.1.5 数据可视化三要素105
6.2 常用图形105
6.2.1 饼图(扇形图)105
6.2.2 堆积柱形图106
6.2.3 风玫瑰图106
6.2.4 柱状图107
6.2.5 直方图107
6.2.6 气泡图108
6.2.7 散点图矩阵108
6.2.8 折线图109
6.2.9 面积图109
6.2.10 相关系数图110
6.2.11 雷达图110
6.2.12 箱线图110
6.3 数据可视化设计111
6.3.1 数据可视化设计原则111
6.3.2 数据可视化=数据+设计+故事113
6.3.3 数据可视化图形选择建议113
6.4 数据可视化工具114
6.4.1 基本工具114
6.4.2 进阶工具114
6.5 基于R语言可视化基础117
6.5.1 基本绘图命令117
6.5.2 ggplot2绘图121
习题6128
*实验报告6 可视化实验129
第7章 大数据应用131
7.1 零售行业大数据131
7.1.1 沃尔玛的购物篮分析131
7.1.2 农夫山泉用海量照片提升销量132
7.2 交通大数据134
7.2.1 交通拥堵大数据分析134
7.2.2 预测起飞时间142
7.3 医疗大数据143
7.3.1 移动医疗与个人健康143
7.3.2 基因测序——精准治癌正在成为现实146
第8章 大数据安全150
8.1 大数据安全的重要意义150
8.2 大数据面临的挑战151
8.3 大数据的安全威胁152
8.3.1 大数据基础设施安全威胁152
8.3.2 大数据存储安全威胁152
8.3.3 大数据的隐私泄露153
8.3.4 大数据的其他安全威胁155
8.4 大数据与网络攻击监测155
8.5 大数据安全分析155
8.6 大数据安全标准157
8.6.1 基础标准类158
8.6.2 平台和技术类158
8.6.3 数据安全类159
8.6.4 服务安全类159
8.6.5 应用安全类160
附录 大数据软件安装161
A.1 基础环境准备161
A.2 安装JDK162
A.3 安装Hadoop162
A.4 安装Zookeeper167
A.5 安装HBase169
A.6 安装Hive170
A.7 安装Spark172
参考文献175
前言
第1章 概论1
1.1 揭秘大数据1
1.1.1 大数据产生历史必然1
1.1.2 大数据概念和特征2
1.1.3 大数据生命周期3
1.1.4 大数据与物联网、云计算、人工智能5
1.1.5 大数据时代的八个重大变革5
1.2 Linux系统概述7
1.2.1 Linux版本7
1.2.2 Linux系统目录结构7
1.2.3 文本编辑器vi9
1.2.4 文件权限解读10
1.2.5 Linux系统常用命令11
习题112
实验报告1 Linux实验13
第2章 大数据生态系统15
2.1 认识Hadoop15
2.2 HDFS16
2.2.1 HDFS体系结构16
2.2.2 HDFS存储原理17
2.2.3 HDFS常用操作20
2.3 MapReduce21
2.3.1 MapReduce逻辑结构21
2.3.2 MapReduce操作案例23
*2.4 Zookeeper24
习题225
实验报告2 Hadoop实验27
第3章 大数据采集与预处理29
3.1 数据29
3.1.1 数据是什么29
3.1.2 数据分类29
3.1.3 度量和维度31
3.2 数据采集32
3.2.1 数据采集分类32
3.2.2 数据采集方法32
3.2.3 数据采集工具32
3.3 数据清洗34
3.3.1 数据清洗任务34
3.3.2 数据清洗过程34
3.4 数据变换35
3.4.1 规范化36
3.4.2 函数变换36
3.5 网络爬虫37
3.5.1 爬虫简介37
*3.5.2 论坛爬虫源代码分析38
习题340
*实验报告3 网络爬虫41
第4章 大数据管理42
4.1 NoSQL42
4.1.1 NoSQL概述42
4.1.2 键值数据库43
4.1.3 图数据库44
4.1.4 文档数据库45
4.1.5 列式数据库47
4.1.6 云数据库47
4.2 HBase47
4.2.1 HBase模型47
4.2.2 HBase与传统关系数据库的对比分析49
4.2.3 HBase系统架构49
4.2.4 HBase常用Shell命令51
习题452
实验报告4 HBase实验53
第5章 大数据分析54
5.1 大数据分析概述54
5.1.1 数据分析原则54
5.1.2 大数据分析特点54
5.1.3 大数据分析流程55
5.1.4 数据分析师基本技能和素质57
*5.1.5 大数据分析难点58
*5.2 业务理解59
5.2.1 什么是业务理解59
5.2.2 如何理解业务60
5.2.3 数据业务化61
5.3 数据认知63
5.3.1 数据预处理63
5.3.2 概率分析63
*5.3.3 对比分析67
*5.3.4 细分分析68
*5.3.5 交叉分析69
5.3.6 相关分析69
5.4 特征工程72
5.4.1 特征工程面临的挑战72
5.4.2 特征选择72
5.4.3 特征提取72
5.4.4 指标设计73
5.5 数据建模76
5.5.1 模型分类76
5.5.2 决策树77
5.5.3 关联分析81
5.5.4 回归分析82
5.5.5 聚类分析85
*5.5.6 k-邻近分类算法KNN86
*5.6 通用计算引擎Spark86
5.6.1 Spark简介86
5.6.2 Spark与Hadoop差异88
5.6.3 Spark适用场景88
5.6.4 Spark运行模式89
5.6.5 Spark常用术语89
5.7 大数据分析引擎Hive89
5.7.1 数据仓库概念89
5.7.2 传统数据仓库的问题90
5.7.3 Hive特征90
5.7.4 Hive系统架构90
5.7.5 Hive应用案例91
习题595
实验报告5 Hive实验101
第6章 大数据可视化102
6.1 数据可视化基本概念102
6.1.1 为什么要数据可视化102
6.1.2 什么是数据可视化103
6.1.3 数据可视化的作用104
6.1.4 数据可视化术语104
6.1.5 数据可视化三要素105
6.2 常用图形105
6.2.1 饼图(扇形图)105
6.2.2 堆积柱形图106
6.2.3 风玫瑰图106
6.2.4 柱状图107
6.2.5 直方图107
6.2.6 气泡图108
6.2.7 散点图矩阵108
6.2.8 折线图109
6.2.9 面积图109
6.2.10 相关系数图110
6.2.11 雷达图110
6.2.12 箱线图110
6.3 数据可视化设计111
6.3.1 数据可视化设计原则111
6.3.2 数据可视化=数据+设计+故事113
6.3.3 数据可视化图形选择建议113
6.4 数据可视化工具114
6.4.1 基本工具114
6.4.2 进阶工具114
6.5 基于R语言可视化基础117
6.5.1 基本绘图命令117
6.5.2 ggplot2绘图121
习题6128
*实验报告6 可视化实验129
第7章 大数据应用131
7.1 零售行业大数据131
7.1.1 沃尔玛的购物篮分析131
7.1.2 农夫山泉用海量照片提升销量132
7.2 交通大数据134
7.2.1 交通拥堵大数据分析134
7.2.2 预测起飞时间142
7.3 医疗大数据143
7.3.1 移动医疗与个人健康143
7.3.2 基因测序——精准治癌正在成为现实146
第8章 大数据安全150
8.1 大数据安全的重要意义150
8.2 大数据面临的挑战151
8.3 大数据的安全威胁152
8.3.1 大数据基础设施安全威胁152
8.3.2 大数据存储安全威胁152
8.3.3 大数据的隐私泄露153
8.3.4 大数据的其他安全威胁155
8.4 大数据与网络攻击监测155
8.5 大数据安全分析155
8.6 大数据安全标准157
8.6.1 基础标准类158
8.6.2 平台和技术类158
8.6.3 数据安全类159
8.6.4 服务安全类159
8.6.5 应用安全类160
附录 大数据软件安装161
A.1 基础环境准备161
A.2 安装JDK162
A.3 安装Hadoop162
A.4 安装Zookeeper167
A.5 安装HBase169
A.6 安装Hive170
A.7 安装Spark172
参考文献175
猜您喜欢