书籍详情
大数据技术导论(第2版)
作者:程显毅,任越美 编
出版社:机械工业出版社
出版时间:2022-08-01
ISBN:9787111711834
定价:¥55.00
购买这本书可以去
内容简介
《大数据技术导论 第2版》以面向应用、面向实战为指导思想,紧扣企业技术人才培养的特点,在知识点讲解和实验中避免复杂的理论,使读者能够快速上手,感受大数据处理的魅力,以激发读者的学习兴趣。《大数据技术导论 第2版》覆盖了大数据生命周期的主要技术要点。全书共8章,第1章介绍了大数据的产生、特点、价值、产业、思维等,第2章介绍了大数据生态,第3~7章按照大数据的生命周期,分别介绍了大数据采集与预处理、大数据管理、数据可视化、大数据分析、大数据应用的基本原理和方法,第8章介绍了大数据安全面临的挑战。《大数据技术导论 第2版》可作为本科、高职院校大数据技术或数据科学及相关课程的参考书或教材,也可供数据科学相关技术人员阅读。
作者简介
暂缺《大数据技术导论(第2版)》作者简介
目录
第2版前言
第1版前言
第1章 绪论1
1.1 认识大数据1
1.1.1 大数据产生的历史必然1
1.1.2 大数据概念和特征2
1.1.3 大数据生命周期4
1.1.4 大数据、物联网与云计算之间的
关系6
1.2 大数据时代带来的变化6
1.2.1 决策方式6
1.2.2 计算方式6
1.2.3 思维方式7
1.3 大数据价值8
1.3.1 增加额外收入9
1.3.2 减少支出9
1.3.3 降低风险9
1.3.4 参照系9
1.4 大数据产业及岗位10
1.4.1 大数据产业链条10
1.4.2 大数据产业分析11
1.4.3 大数据岗位12
1.5 虚拟机13
1.5.1 安装虚拟机13
1.5.2 安装CentOS15
1.5.3 安装虚拟机常见问题20
1.5.4 大数据实验平台概述21
1.6 Linux操作系统22
1.6.1 Linux版本22
1.6.2 Linux 系统目录结构23
1.6.3 文本编辑器vi24
1.6.4 文件权限解读24
1.6.5 Linux系统常用命令25
习题127
实验:Linux实验29
第2章 大数据生态30
2.1 认识Hadoop30
2.2 部署Hadoop30
2.2.1 Hadoop安装模式30
2.2.2 单节点伪分布模式安装31
2.2.3 多节点伪分布模式安装32
2.3 HDFS38
2.3.1 HDFS体系结构39
2.3.2 HDFS存储原理41
2.3.3 HDFS实战41
2.4 MapReduce44
2.4.1 MapReduce逻辑结构44
2.4.2 MapReduce实战45
2.5 Zookeeper47
2.5.1 Zookeeper集群47
2.5.2 部署Zookeeper47
习题249
实验:HDFS操作52
第3章 大数据采集与预处理53
3.1 数据53
3.1.1 数据是什么53
3.1.2 数据分类54
3.1.3 度量和维度55
3.2 数据采集56
3.2.1 数据采集概述56
3.2.2 数据采集工具56
3.3 日志采集组件Flume60
3.3.1 Flume结构60
3.3.2 Flume部署62
3.3.3 Flume实战63
3.4 数据清洗68
3.4.1 缺失值处理68
3.4.2 异常值处理69
3.4.3 数据清洗实战71
3.5 数据变换74
3.5.1 规范化74
3.5.2 数据透视表76
3.5.3 列联表78
3.5.4 聚合表78
3.5.5 特征编码79
习题379
第4章 大数据管理82
4.1 数据管理概述82
4.2 大数据管理NoSQL83
4.2.1 NoSQL概述83
4.2.2 NoSQL分类及主要产品83
4.3 列式数据库HBase85
4.3.1 HBase模型85
4.3.2 HBase系统架构85
4.3.3 HBase应用场景88
4.4 HBase实战89
4.4.1 HBase部署89
4.4.2 HBase Shell基本操作91
4.4.3 HBase Shell应用案例94
习题496
实验:HBase基本操作97
第5章 数据可视化98
5.1 数据可视化概述98
5.2 常用图形99
5.3 可视化设计\\105
5.3.1 数据可视化图形选择建议106
5.3.2 用数据讲故事106
5.4 数据可视化工具111
5.4.1 FineReport111
5.4.2 ECharts113
5.4.3 Tableau114
习题5115
第6章 大数据分析117
6.1 大数据分析概述117
6.1.1 数据分析概念117
6.1.2 数据分析流程118
6.1.3 数据分析师的基本技能和素养119
6.2 业务理解124
6.2.1 业务理解概述124
6.2.2 数据业务化125
6.3 数据认知126
6.3.1 描述性分析126
6.3.2 对比分析126
6.3.3 细分分析128
6.3.4 交叉分析129
6.3.5 相关分析129
6.4 分析指标设计131
6.4.1 设计指标技巧131
6.4.2 如何设计指标131
6.5 数据建模133
6.6 内存计算引擎Spark134
6.6.1 Spark概述134
6.6.2 Spark结构135
6.6.3 Spark部署137
6.6.4 Spark实战140
6.7 数据仓库Hive143
6.7.1 数据仓库概述143
6.7.2 Hive设计特点143
6.7.3 Hive系统架构143
6.7.4 Hive部署144
6.7.5 Hive实战146
习题6149
实验:Hive实验151
第7章 大数据应用153
7.1 零售业大数据153
7.1.1 市场营销153
7.1.2 商品管理156
7.1.3 运营管理157
7.1.4 供应链管理158
7.1.5 商业模式159
7.2 交通大数据159
7.2.1 道路运输安全事故预警160
7.2.2 城市道路交通信号灯智能调时160
7.2.3 绘制实时路况信息图161
7.2.4 停车管理161
7.3 医疗大数据162
7.3.1 大数据电子病历162
7.3.2 大数据与流行病防控163
7.3.3 基因测序—精准治癌正在成为
现实164
7.4 农业大数据164
7.4.1 农业大数据构成165
7.4.2 农业大数据应用167
7.4.3 智慧畜牧业170
7.4.4 水产养殖环境监测172
7.4.5 食品溯源172
7.5 环保大数据173
7.5.1 多维度的环保数据整合173
7.5.2 环保数据服务接口174
7.5.3 环保数据可视化175
7.6 教育大数据175
7.6.1 教育大数据特点175
7.6.2 教育大数据作用176
7.6.3 大数据应用于教育行业十大
案例177
7.6.4 教育大数据技术179
7.7 政府大数据180
7.7.1 政府主要部门的数据内容及
数据应用开发价值180
7.7.2 政府大数据应用案例181
7.8 工业大数据184
7.8.1 工业大数据概述184
7.8.2 工业大数据架构185
7.8.3 工业大数据的价值创造185
7.8.4 工业大数据应用案例186
习题7187
第8章 大数据安全188
8.1 大数据安全的重要意义188
8.2 大数据面临的挑战189
8.3 大数据安全技术190
8.4 大数据安全保障体系194
习题8195
附录196
附录A 大数据运维“1+X”
考证样卷(初级)196
附录B 数据分析“1+X”
考证样
第1版前言
第1章 绪论1
1.1 认识大数据1
1.1.1 大数据产生的历史必然1
1.1.2 大数据概念和特征2
1.1.3 大数据生命周期4
1.1.4 大数据、物联网与云计算之间的
关系6
1.2 大数据时代带来的变化6
1.2.1 决策方式6
1.2.2 计算方式6
1.2.3 思维方式7
1.3 大数据价值8
1.3.1 增加额外收入9
1.3.2 减少支出9
1.3.3 降低风险9
1.3.4 参照系9
1.4 大数据产业及岗位10
1.4.1 大数据产业链条10
1.4.2 大数据产业分析11
1.4.3 大数据岗位12
1.5 虚拟机13
1.5.1 安装虚拟机13
1.5.2 安装CentOS15
1.5.3 安装虚拟机常见问题20
1.5.4 大数据实验平台概述21
1.6 Linux操作系统22
1.6.1 Linux版本22
1.6.2 Linux 系统目录结构23
1.6.3 文本编辑器vi24
1.6.4 文件权限解读24
1.6.5 Linux系统常用命令25
习题127
实验:Linux实验29
第2章 大数据生态30
2.1 认识Hadoop30
2.2 部署Hadoop30
2.2.1 Hadoop安装模式30
2.2.2 单节点伪分布模式安装31
2.2.3 多节点伪分布模式安装32
2.3 HDFS38
2.3.1 HDFS体系结构39
2.3.2 HDFS存储原理41
2.3.3 HDFS实战41
2.4 MapReduce44
2.4.1 MapReduce逻辑结构44
2.4.2 MapReduce实战45
2.5 Zookeeper47
2.5.1 Zookeeper集群47
2.5.2 部署Zookeeper47
习题249
实验:HDFS操作52
第3章 大数据采集与预处理53
3.1 数据53
3.1.1 数据是什么53
3.1.2 数据分类54
3.1.3 度量和维度55
3.2 数据采集56
3.2.1 数据采集概述56
3.2.2 数据采集工具56
3.3 日志采集组件Flume60
3.3.1 Flume结构60
3.3.2 Flume部署62
3.3.3 Flume实战63
3.4 数据清洗68
3.4.1 缺失值处理68
3.4.2 异常值处理69
3.4.3 数据清洗实战71
3.5 数据变换74
3.5.1 规范化74
3.5.2 数据透视表76
3.5.3 列联表78
3.5.4 聚合表78
3.5.5 特征编码79
习题379
第4章 大数据管理82
4.1 数据管理概述82
4.2 大数据管理NoSQL83
4.2.1 NoSQL概述83
4.2.2 NoSQL分类及主要产品83
4.3 列式数据库HBase85
4.3.1 HBase模型85
4.3.2 HBase系统架构85
4.3.3 HBase应用场景88
4.4 HBase实战89
4.4.1 HBase部署89
4.4.2 HBase Shell基本操作91
4.4.3 HBase Shell应用案例94
习题496
实验:HBase基本操作97
第5章 数据可视化98
5.1 数据可视化概述98
5.2 常用图形99
5.3 可视化设计\\105
5.3.1 数据可视化图形选择建议106
5.3.2 用数据讲故事106
5.4 数据可视化工具111
5.4.1 FineReport111
5.4.2 ECharts113
5.4.3 Tableau114
习题5115
第6章 大数据分析117
6.1 大数据分析概述117
6.1.1 数据分析概念117
6.1.2 数据分析流程118
6.1.3 数据分析师的基本技能和素养119
6.2 业务理解124
6.2.1 业务理解概述124
6.2.2 数据业务化125
6.3 数据认知126
6.3.1 描述性分析126
6.3.2 对比分析126
6.3.3 细分分析128
6.3.4 交叉分析129
6.3.5 相关分析129
6.4 分析指标设计131
6.4.1 设计指标技巧131
6.4.2 如何设计指标131
6.5 数据建模133
6.6 内存计算引擎Spark134
6.6.1 Spark概述134
6.6.2 Spark结构135
6.6.3 Spark部署137
6.6.4 Spark实战140
6.7 数据仓库Hive143
6.7.1 数据仓库概述143
6.7.2 Hive设计特点143
6.7.3 Hive系统架构143
6.7.4 Hive部署144
6.7.5 Hive实战146
习题6149
实验:Hive实验151
第7章 大数据应用153
7.1 零售业大数据153
7.1.1 市场营销153
7.1.2 商品管理156
7.1.3 运营管理157
7.1.4 供应链管理158
7.1.5 商业模式159
7.2 交通大数据159
7.2.1 道路运输安全事故预警160
7.2.2 城市道路交通信号灯智能调时160
7.2.3 绘制实时路况信息图161
7.2.4 停车管理161
7.3 医疗大数据162
7.3.1 大数据电子病历162
7.3.2 大数据与流行病防控163
7.3.3 基因测序—精准治癌正在成为
现实164
7.4 农业大数据164
7.4.1 农业大数据构成165
7.4.2 农业大数据应用167
7.4.3 智慧畜牧业170
7.4.4 水产养殖环境监测172
7.4.5 食品溯源172
7.5 环保大数据173
7.5.1 多维度的环保数据整合173
7.5.2 环保数据服务接口174
7.5.3 环保数据可视化175
7.6 教育大数据175
7.6.1 教育大数据特点175
7.6.2 教育大数据作用176
7.6.3 大数据应用于教育行业十大
案例177
7.6.4 教育大数据技术179
7.7 政府大数据180
7.7.1 政府主要部门的数据内容及
数据应用开发价值180
7.7.2 政府大数据应用案例181
7.8 工业大数据184
7.8.1 工业大数据概述184
7.8.2 工业大数据架构185
7.8.3 工业大数据的价值创造185
7.8.4 工业大数据应用案例186
习题7187
第8章 大数据安全188
8.1 大数据安全的重要意义188
8.2 大数据面临的挑战189
8.3 大数据安全技术190
8.4 大数据安全保障体系194
习题8195
附录196
附录A 大数据运维“1+X”
考证样卷(初级)196
附录B 数据分析“1+X”
考证样
猜您喜欢