大数据存储
![大数据存储 大数据存储](https://img.dushu.com/2024/05/22/08575058142910.jpg_200.jpg)
作者:谭旭,李程文
出版社:人民邮电出版社
出版时间:2022-08-01
ISBN:9787115594143
定价:¥49.80
项目1 了解大数据 1
教学目标 1
项目描述 1
项目实施 2
任务1.1 大数据简介 2
1.1.1 大数据的概念 2
1.1.2 大数据的特征 2
1.1.3 大数据的应用领域 6
1.1.4 大数据技术体系 7
任务1.2 大数据存储技术 10
1.2.1 了解数据存储 10
1.2.2 了解分布式数据库 13
项目总结 15
课后习题 16
拓展阅读 16
项目2 结构化数据仓库——Hive 17
教学目标 17
项目描述 17
项目实施 19
任务2.1 Hive的架构原理简介 19
2.1.1 认识Hive 19
2.1.2 了解Hive的架构 20
任务2.2 安装与配置Hive 21
2.2.1 搭建Hadoop集群 21
2.2.2 配置MySQL数据库 22
2.2.3 配置Hive数据仓库 23
任务2.3 创建航空客户信息表 26
2.3.1 掌握Hive基础数据类型 26
2.3.2 创建表 27
2.3.3 删除表与表数据 29
2.3.4 修改表结构 29
2.3.5 任务实现 30
任务2.4 导入航空客户数据到航空客户信息表 31
2.4.1 导入数据 31
2.4.2 导出数据 34
2.4.3 任务实现 36
任务2.5 查询航空客户信息表空值记录数 36
2.5.1 认识SELECT语句结构 36
2.5.2 了解运算符的使用 37
2.5.3 使用WHERE语句进行条件查询 38
2.5.4 任务实现 38
任务2.6 查询航空客户信息表字段数据的最大值和最小值 39
2.6.1 认识HiveQL内置函数 39
2.6.2 任务实现 42
任务2.7 统计会员数最多的会员级别 43
2.7.1 认识HiveQL子查询 43
2.7.2 任务实现 44
任务2.8 编写UDF统计客户入会时长 44
2.8.1 编写Hive中的UDF 44
2.8.2 任务实现 46
任务2.9 构建航空客户价值分析的特征数据 47
2.9.1 过滤无效、异常数据 47
2.9.2 选取有效字段 48
2.9.3 构建模型指标 49
项目总结 50
实训 50
实训1 统计学生成绩的总分、平均分 50
实训2 合并文件数据并进行条件查询 51
课后习题 52
拓展阅读 54
项目3 列存储数据库——HBase 55
教学目标 55
项目描述 55
项目实施 57
任务3.1 HBase简介 57
3.1.1 了解HBase 57
3.1.2 掌握HBase核心功能模块 59
3.1.3 了解HBase的数据模型 61
任务3.2 安装HBase集群 61
3.2.1 安装前的准备工作 62
3.2.2 安装与配置Zookeeper 62
3.2.3 安装与配置HBase 64
任务3.3 设计与新建钞票交易数据表 66
3.3.1 设计表结构的原则 66
3.3.2 创建与删除表 67
3.3.3 任务实现 69
任务3.4 新增与删除钞票交易数据表数据 71
3.4.1 插入数据 71
3.4.2 查询数据 71
3.4.3 删除数据 73
3.4.4 扫描全表 73
3.4.5 任务实现 74
任务3.5 查询指定时间版本的钞票数据 75
3.5.1 按时间版本查询数据 75
3.5.2 任务实现 76
任务3.6 使用Java API创建钞票交易数据表 77
3.6.1 搭建HBase开发环境 77
3.6.2 创建表与删除表的方法 82
3.6.3 任务实现 84
任务3.7 通过Java API插入数据到钞票交易数据表并查询 85
3.7.1 调用表对象的put()方法插入数据 85
3.7.2 调用表对象的get()方法进行查询 86
3.7.3 调用表对象的scan()方法进行全表查询 88
3.7.4 任务实现 90
任务3.8 通过MapReduce导入数据到钞票交易数据表 93
3.8.1 编写MapReduce实现数据交互 93
3.8.2 任务实现 95
项目总结 98
实训 98
实训1 查询学生成绩信息 98
实训2 用户访问网站日志分析 99
课后习题 100
拓展阅读 101
项目4 文档存储数据库——MongoDB 102
教学目标 102
项目描述 102
项目实施 104
任务4.1 MongoDB简介 104
4.1.1 了解MongoDB 104
4.1.2 了解MongoDB数据模型 105
任务4.2 安装分布式MongoDB 106
4.2.1 安装与配置MongoDB 107
4.2.2 访问MongoDB HTTP端口 109
任务4.3 创建存储用户日志数据的数据库 109
4.3.1 创建与删除数据库 109
4.3.2 任务实现 112
任务4.4 存储用户日志数据到MongoDB 112
4.4.1 插入文档数据 112
4.4.2 删除文档数据 113
4.4.3 更新文档数据 114
4.4.4 任务实现 116
任务4.5 查询MongoDB中用户访问HTML页面的记录数 116
4.5.1 查询文档数据 116
4.5.2 索引 117
4.5.3 聚合 118
4.5.4 任务实现 119
任务4.6 使用MongoDB Java API创建电子商务日志数据
存储系统 120
4.6.1 搭建MongoDB的开发环境 120
4.6.2 创建电子商务日志数据存储数据库 121
4.6.3 任务实现 126
项目总结 129
实训 129
实训1 学生信息的存储和查询 129
实训2 电影评分查询 130
课后习题 130
拓展阅读 131
项目5 文档存储数据库——ElasticSearch 132
教学目标 132
项目描述 132
项目实施 133
任务5.1 ElasticSearch简介 133
5.1.1 了解ElasticSearch 134
5.1.2 安装分布式ElasticSearch 137
任务5.2 使用Head扩展插件存储用户和电影信息数据 142
5.2.1 配置Head插件 142
5.2.2 创建与修改索引 145
5.2.3 增加、删除与修改数据 147
5.2.4 查询数据 149
5.2.5 任务实现 152
任务5.3 通过Java存储用户对电影的评分数据 154
5.3.1 搭建ElasticSearch开发环境 154
5.3.2 创建与修改索引 157
5.3.3 增加、删除与修改数据 159
5.3.4 批量操作 161
5.3.5 任务实现 162
任务5.4 通过Java查询插入的数据记录 164
5.4.1 调用Get API查询 164
5.4.2 调用Search API查询 166
5.4.3 输出设置 171
5.4.4 任务实现 172
任务5.5 查询评价电影超过50次的用户 174
5.5.1 度量聚合 174
5.5.2 分组聚合 177
5.5.3 任务实现 179
项目总结 181
实训 182
实训1 查询手机信息 182
实训2 查询学生成绩信息 182
课后习题 183
拓展阅读 184
项目6 数据传输工具——Sqoop 185
教学目标 185
项目描述 185
项目实施 186
任务6.1 Sqoop简介 186
6.1.1 了解Sqoop 187
6.1.2 安装与配置Sqoop 187
6.1.3 了解Sqoop基本传输命令 188
任务6.2 查询MySQL用户日志数据表的记录数 190
6.2.1 掌握Sqoop eval的基本操作 190
6.2.2 任务实现 191
任务6.3 将MySQL中的用户日志数据增量导入Hive 192
6.3.1 掌握Sqoop import的基本操作 192
6.3.2 掌握Sqoop job的基本操作 193
6.3.3 使用Sqoop将MySQL中的数据导入Hive 195
6.3.4 任务实现 196
任务6.4 导出Hive中的筛选结果至MySQL 196
6.4.1 掌握Sqoop export基本操作 197
6.4.2 使用Sqoop从Hive传输数据到MySQL 198
6.4.3 任务实现 198
项目总结 199
实训 199
实训 传输用户登录数据 200
课后习题 200
拓展阅读 201
项目7 广电用户数据存储与分析 202
教学目标 202
项目描述 203
项目实施 203
任务7.1 分析需求与架构 203
7.1.1 业务需求分析 204
7.1.2 选择存储与分析技术 205
7.1.3 设计存储与分析架构 205
任务7.2 将CSV格式数据导入ElasticSearch 206
7.2.1 了解数据 206
7.2.2 将数据导入ElasticSearch 208
任务7.3 转移ElasticSearch数据至Hive 212
7.3.1 在Hive中创建数据管理表 212
7.3.2 查看Hive中的表数据 215
任务7.4 统计各表宣传数据和政企用户记录数 216
7.4.1 统计各表宣传数据记录数 216
7.4.2 统计各表政企用户记录数 216
任务7.5 统计无效收视数据 217
7.5.1 统计用户收视时长分布 217
7.5.2 统计机顶盒待机记录数 217
任务7.6 处理各表无效数据 217
7.6.1 处理无效用户信息 218
7.6.2 处理无效收视数据 218
7.6.3 处理无效账单数据 218
7.6.4 处理无效订单数据 219
任务7.7 计算用户电视消费水平和宽带消费水平 219
7.7.1 计算电视消费水平和宽带消费水平 219
7.7.2 将数据保存至其他数据库 221
项目总结 222
拓展阅读 222