书籍详情
云计算大数据处理
作者:刘鹏,于全,杨震宇,陈伟,王磊 ... 著
出版社:人民邮电出版社
出版时间:2018-08-01
ISBN:9787115487650
定价:¥118.00
购买这本书可以去
内容简介
本书介绍了基于云计算的大数据处理技术,重点介绍了一款高效的、实时分析处理海量数据的强有力工具—数据立方。数据立方是针对大数据处理的分布式数据库,能够可靠地对大数据进行实时处理,具有即时响应多用户并发请求的能力。本书通过对当前主流的大数据处理系统进行深入剖析,阐述了数据立方产生的背景,介绍了数据立方的整体架构以及安装和详细开发流程,并给出了4个完整的数据立方综合应用实例。所有实例都经过验证并附有详细的步骤说明,无论是对于云计算的初学者还是想进一步深入学习大数据处理技术的研究和开发人员都有很好的参考价值。读者也可从本书配套网站中国云计算和中国大数据获取更多资料或求解疑难问题。
作者简介
刘鹏解放军理工大学教授、博导、学科带头人,清华大学博士毕业。现任中国云计算专家咨询委员会副主任/秘书长、中国大数据专家委员会委员、中国电子学会云计算专家委员会云存储组组长、工业和信息化部云计算研究中心专家、江苏省云计算论坛主席/专家委员会主任。在大数据、云计算和网格计算领域具有15年的研究积累,是我国该领域知名专家,在大数据库、大数据挖掘、分布式存储等技术领域卓有建树。曾于2002年获得全球数据处理比赛PennySort世界冠军。主持完成科研项目20余项,发表论文80余篇,出版专业书籍18本。获部级科技进步二等奖4项,三等奖4项。获全军“十大学习成才标兵”(****)、南京“十大杰出青年”、江苏省“333高层次人才培养工程”中青年科学技术带头人、清华大学“学术新秀”等称号。主编的《云计算》教材被数百家高校用作教材,创办的中国云计算和中国大数据网站分别为云计算和大数据领域知名的网站。于全军事科学院系统工程研究院研究员,中国工程院院士,IEEE高级会员,中国电子学会和中国指控学会理事,清华大学、上海交通大学、北京理工大学博士生导师。我国战术通信领域的学科带头人,在通信与信息系统的发展战略、体制论证、系统仿真、综合集成和关键技术等方面取得了丰硕成果,先后完成“认知无线网络基础理论与关键技术研究——无线网络主动认知方法研究”“新一代宽带无线移动通信网——面向WRC11的频谱有效利用关键技术研究及验证”等多个国家“973”计划项目和自然科学基金项目。曾获国家科技进步一等奖1项、二等奖1项,部级科技进步一等奖4项;申请发明专利14项,出版学术专著7部;被评为全国优秀科技工作者、中国青年五四奖章标兵、全军首届十大学习成才标兵,入选新世纪百千万人才工程,获中国科学技术协会求是杰出青年奖、第九届中国青年科技奖、何梁何利基金“科学与技术进步奖”等。
目录
第1章 大数据挑战 001
1.1 当前面临的大数据挑战 002
1.1.1 大数据急剧膨胀 002
1.1.2 大数据智能分析 004
1.1.3 大数据深度挖掘 005
1.1.4 业务与技术脱节 006
1.2 大数据催生云计算 007
1.2.1 云计算不是偶然 007
1.2.2 云计算带来挑战与机遇 011
1.2.3 云计算对大数据的意义 014
1.2.4 云计算的未来展望 015
1.3 大数据存储 016
1.3.1 存储仅是第一步 016
1.3.2 行存储和列存储 018
1.3.3 PB级大数据存储 021
1.3.4 大数据存储的未来 024
1.4 大数据处理 027
1.4.1 大数据处理的瓶颈 027
1.4.2 大数据处理的需求 031
1.4.3 大数据处理技术决定未来 032
1.4.4 大数据处理解决方案 035
参考文献 037
第2章 当前的大数据处理系统 039
2.1 开源大数据处理平台 040
2.1.1 Hadoop 040
2.1.2 MapReduce 044
2.2 NoSQL数据库 047
2.2.1 Google BigTable的开源Java实现:HBase 047
2.2.2 纯分布式数据库:Cassandra 050
2.2.3 NoSQL数据库的应用场景 051
2.3 数据仓库平台 052
2.3.1 Hive 052
2.3.2 数据仓库平台架构 052
2.3.3 数据仓库平台的实现 053
参考文献 054
第3章 数据立方简介 055
3.1 数据立方的产生背景 056
3.2 数据立方的相关技术 056
3.2.1 云计算中的大数据处理技术—MapReduce 056
3.2.2 并行数据库技术 058
3.2.3 云计算与数据库相结合的技术 059
3.3 数据立方的架构以及与Hadoop的关系 060
3.3.1 数据立方的体系架构 061
3.3.2 数据立方与Hadoop的关系 067
参考文献 068
第4章 数据立方及配套环境的安装 069
4.1 安装流程 070
4.2 操作系统的安装 070
4.2.1 CentOS 6.2的安装 070
4.2.2 JDK的安装 075
4.2.3 配置SSH 075
4.2.4 配置/etc/hosts 076
4.2.5 修改机器主机名 077
4.2.6 配置NFS与NTP 077
4.3 Hadoop的安装 078
4.3.1 Hadoop的版本 078
4.3.2 HDFS的配置安装 078
4.3.3 MapReduce的配置安装 082
4.4 数据立方的配置安装 084
4.4.1 MySQL-Connector的安装 084
4.4.2 编辑数据立方的配置文件 084
4.4.3 数据立方的启动 088
4.5 监控工具Ganglia的安装 088
4.5.1 安装依赖 088
4.5.2 安装Ganglia 090
4.5.3 配置Ganglia 090
4.6 数据导入工具Sqoop的安装 092
4.6.1 安装前提 092
4.6.2 安装步骤 092
参考文献 093
第5章 Hello World数据立方快速入门 095
5.1 智慧交通数据处理实例 096
5.1.1 实例背景 096
5.1.2 建表 098
5.1.3 数据入库 099
5.1.4 数据查询 099
5.2 编程实现 100
第6章 数据立方开发 103
6.1 数据立方的开发说明 104
6.2 数据立方SQL规范 105
6.2.1 数据定义与数据操作语言 106
6.2.2 数据查询语言 114
6.3 数据入库接口开发 122
6.3.1 单条或多条记录入库Java开发包 122
6.3.2 开发说明 122
6.3.3 示例 123
6.4 数据查询接口开发 124
6.4.1 Java开发包 124
6.4.2 接口介绍 125
6.4.3 示例 126
6.5 数据导入工具Sqoop命令及其使用 126
6.5.1 Sqoop命令及通用参数 127
6.5.2 Sqoop命令的使用 128
第7章 数据立方的维护 129
7.1 HDFS的维护 130
7.1.1 HDFS的dfsadmin命令 130
7.1.2 HDFS的Balancer工具 133
7.2 Shell的使用 135
7.2.1 数据立方Shell说明 135
7.2.2 数据定义与数据操作的Shell 135
7.2.3 数据查询的Shell 136
7.3 数据立方的常见问题及其解决方法 136
7.3.1 问题1:datacube-shell.sh启动后连接不上服务器 136
7.3.2 问题2:启动时,有时可以看到报错信息 137
7.3.3 问题3:查看运行日志 138
7.4 Sqoop的常见问题及其解决方法 138
7.4.1 MySQL的用户问题 138
7.4.2 MySQL的权限问题 139
7.4.3 Sqoop的Path问题 139
7.4.4 Sqoop的Import问题 140
7.5 数据立方管理系统 140
7.5.1 登录 140
7.5.2 集群管理 141
7.5.3 数据管理 143
7.5.4 表结构管理 143
7.5.5 数据入库 144
7.5.6 在线查询 144
7.5.7 对外接口 145
7.5.8 文件管理 145
7.5.9 任务管理 146
7.5.10 告警管理 146
7.5.11 故障管理 148
参考文献 148
第8章 数据立方的可靠性 149
8.1 Hadoop的可靠性 150
8.1.1 HDFS中NameNode的单点问题 150
8.1.2 HDFS数据块副本机制 151
8.1.3 HDFS心跳机制 152
8.1.4 HDFS负载均衡 152
8.1.5 MapReduce容错 153
8.2 Hadoop的SecondaryNameNode机制 154
8.2.1 磁盘镜像与日志文件 154
8.2.2 SecondaryNameNode更新镜像的流程 154
8.3 Avatar机制 157
8.3.1 Avatar系统架构 158
8.3.2 Avatar元数据同步机制 159
8.3.3 故障切换过程 161
8.3.4 Avatar运行流程 163
8.3.5 Avatar故障切换流程 169
8.4 Avatar实战 173
8.4.1 实验环境 173
8.4.2 Avatar的编译 174
8.4.3 Avatar的安装和配置 176
8.4.4 Avatar启动运行与宕机切换 185
8.5 数据立方的工作流程及可靠性 188
8.5.1 数据立方的架构 188
8.5.2 数据立方的工作流程 189
8.5.3 数据立方的可靠性 189
参考文献 190
第9章 数据统计分析实例——供电信息采集系统 191
9.1 客户需求分析 192
9.1.1 测试过程及数据量描述 192
9.1.2 测试过程分解及效率统计 193
9.2 数据表设计 197
9.3 查询语句设计与结果展现 200
9.4 查询优化 201
9.4.1 存储方面的优化 201
9.4.2 内存方面的优化 202
9.5 性能测试结果 202
9.5.1 数据下载解压及标记 202
9.5.2 数据解析入库 203
9.5.3 数据计算流程 204
9.5.4 数据导入Oracle数据库 205
9.5.5 查询总时长统计 206
第10章 在线数据检索实例——移动信令分析云平台 207
10.1 需求分析 208
10.2 数据表设计 210
10.2.1 CDR数据文件的检测与索引创建任务调度 211
10.2.2 从HDFS读取数据并创建索引 212
10.2.3 查询CDR信息 213
10.3 查询语句设计与结果展现 213
10.3.1 CDR文件检测和索引创建任务调度程序 213
10.3.2 读取CDR数据和索引创建处理 218
10.3.3 CDR查询 222
10.4 查询优化 225
10.5 性能测试结果 226
第11章 实时数据处理实例——地震数据 227
11.1 需求分析 228
11.2 数据表设计 229
11.3 查询语句设计与结果展现 231
11.4 查询优化 232
11.4.1 存储方面的优化 232
11.4.2 计算方面的优化 232
11.5 性能测试结果 233
11.5.1 单机模拟集群测试 233
11.5.2 字段测试 233
11.5.3 排序测试 234
11.5.4 随机读写测试 235
附录 大数据和人工智能实验环境 237
名词索引 251
1.1 当前面临的大数据挑战 002
1.1.1 大数据急剧膨胀 002
1.1.2 大数据智能分析 004
1.1.3 大数据深度挖掘 005
1.1.4 业务与技术脱节 006
1.2 大数据催生云计算 007
1.2.1 云计算不是偶然 007
1.2.2 云计算带来挑战与机遇 011
1.2.3 云计算对大数据的意义 014
1.2.4 云计算的未来展望 015
1.3 大数据存储 016
1.3.1 存储仅是第一步 016
1.3.2 行存储和列存储 018
1.3.3 PB级大数据存储 021
1.3.4 大数据存储的未来 024
1.4 大数据处理 027
1.4.1 大数据处理的瓶颈 027
1.4.2 大数据处理的需求 031
1.4.3 大数据处理技术决定未来 032
1.4.4 大数据处理解决方案 035
参考文献 037
第2章 当前的大数据处理系统 039
2.1 开源大数据处理平台 040
2.1.1 Hadoop 040
2.1.2 MapReduce 044
2.2 NoSQL数据库 047
2.2.1 Google BigTable的开源Java实现:HBase 047
2.2.2 纯分布式数据库:Cassandra 050
2.2.3 NoSQL数据库的应用场景 051
2.3 数据仓库平台 052
2.3.1 Hive 052
2.3.2 数据仓库平台架构 052
2.3.3 数据仓库平台的实现 053
参考文献 054
第3章 数据立方简介 055
3.1 数据立方的产生背景 056
3.2 数据立方的相关技术 056
3.2.1 云计算中的大数据处理技术—MapReduce 056
3.2.2 并行数据库技术 058
3.2.3 云计算与数据库相结合的技术 059
3.3 数据立方的架构以及与Hadoop的关系 060
3.3.1 数据立方的体系架构 061
3.3.2 数据立方与Hadoop的关系 067
参考文献 068
第4章 数据立方及配套环境的安装 069
4.1 安装流程 070
4.2 操作系统的安装 070
4.2.1 CentOS 6.2的安装 070
4.2.2 JDK的安装 075
4.2.3 配置SSH 075
4.2.4 配置/etc/hosts 076
4.2.5 修改机器主机名 077
4.2.6 配置NFS与NTP 077
4.3 Hadoop的安装 078
4.3.1 Hadoop的版本 078
4.3.2 HDFS的配置安装 078
4.3.3 MapReduce的配置安装 082
4.4 数据立方的配置安装 084
4.4.1 MySQL-Connector的安装 084
4.4.2 编辑数据立方的配置文件 084
4.4.3 数据立方的启动 088
4.5 监控工具Ganglia的安装 088
4.5.1 安装依赖 088
4.5.2 安装Ganglia 090
4.5.3 配置Ganglia 090
4.6 数据导入工具Sqoop的安装 092
4.6.1 安装前提 092
4.6.2 安装步骤 092
参考文献 093
第5章 Hello World数据立方快速入门 095
5.1 智慧交通数据处理实例 096
5.1.1 实例背景 096
5.1.2 建表 098
5.1.3 数据入库 099
5.1.4 数据查询 099
5.2 编程实现 100
第6章 数据立方开发 103
6.1 数据立方的开发说明 104
6.2 数据立方SQL规范 105
6.2.1 数据定义与数据操作语言 106
6.2.2 数据查询语言 114
6.3 数据入库接口开发 122
6.3.1 单条或多条记录入库Java开发包 122
6.3.2 开发说明 122
6.3.3 示例 123
6.4 数据查询接口开发 124
6.4.1 Java开发包 124
6.4.2 接口介绍 125
6.4.3 示例 126
6.5 数据导入工具Sqoop命令及其使用 126
6.5.1 Sqoop命令及通用参数 127
6.5.2 Sqoop命令的使用 128
第7章 数据立方的维护 129
7.1 HDFS的维护 130
7.1.1 HDFS的dfsadmin命令 130
7.1.2 HDFS的Balancer工具 133
7.2 Shell的使用 135
7.2.1 数据立方Shell说明 135
7.2.2 数据定义与数据操作的Shell 135
7.2.3 数据查询的Shell 136
7.3 数据立方的常见问题及其解决方法 136
7.3.1 问题1:datacube-shell.sh启动后连接不上服务器 136
7.3.2 问题2:启动时,有时可以看到报错信息 137
7.3.3 问题3:查看运行日志 138
7.4 Sqoop的常见问题及其解决方法 138
7.4.1 MySQL的用户问题 138
7.4.2 MySQL的权限问题 139
7.4.3 Sqoop的Path问题 139
7.4.4 Sqoop的Import问题 140
7.5 数据立方管理系统 140
7.5.1 登录 140
7.5.2 集群管理 141
7.5.3 数据管理 143
7.5.4 表结构管理 143
7.5.5 数据入库 144
7.5.6 在线查询 144
7.5.7 对外接口 145
7.5.8 文件管理 145
7.5.9 任务管理 146
7.5.10 告警管理 146
7.5.11 故障管理 148
参考文献 148
第8章 数据立方的可靠性 149
8.1 Hadoop的可靠性 150
8.1.1 HDFS中NameNode的单点问题 150
8.1.2 HDFS数据块副本机制 151
8.1.3 HDFS心跳机制 152
8.1.4 HDFS负载均衡 152
8.1.5 MapReduce容错 153
8.2 Hadoop的SecondaryNameNode机制 154
8.2.1 磁盘镜像与日志文件 154
8.2.2 SecondaryNameNode更新镜像的流程 154
8.3 Avatar机制 157
8.3.1 Avatar系统架构 158
8.3.2 Avatar元数据同步机制 159
8.3.3 故障切换过程 161
8.3.4 Avatar运行流程 163
8.3.5 Avatar故障切换流程 169
8.4 Avatar实战 173
8.4.1 实验环境 173
8.4.2 Avatar的编译 174
8.4.3 Avatar的安装和配置 176
8.4.4 Avatar启动运行与宕机切换 185
8.5 数据立方的工作流程及可靠性 188
8.5.1 数据立方的架构 188
8.5.2 数据立方的工作流程 189
8.5.3 数据立方的可靠性 189
参考文献 190
第9章 数据统计分析实例——供电信息采集系统 191
9.1 客户需求分析 192
9.1.1 测试过程及数据量描述 192
9.1.2 测试过程分解及效率统计 193
9.2 数据表设计 197
9.3 查询语句设计与结果展现 200
9.4 查询优化 201
9.4.1 存储方面的优化 201
9.4.2 内存方面的优化 202
9.5 性能测试结果 202
9.5.1 数据下载解压及标记 202
9.5.2 数据解析入库 203
9.5.3 数据计算流程 204
9.5.4 数据导入Oracle数据库 205
9.5.5 查询总时长统计 206
第10章 在线数据检索实例——移动信令分析云平台 207
10.1 需求分析 208
10.2 数据表设计 210
10.2.1 CDR数据文件的检测与索引创建任务调度 211
10.2.2 从HDFS读取数据并创建索引 212
10.2.3 查询CDR信息 213
10.3 查询语句设计与结果展现 213
10.3.1 CDR文件检测和索引创建任务调度程序 213
10.3.2 读取CDR数据和索引创建处理 218
10.3.3 CDR查询 222
10.4 查询优化 225
10.5 性能测试结果 226
第11章 实时数据处理实例——地震数据 227
11.1 需求分析 228
11.2 数据表设计 229
11.3 查询语句设计与结果展现 231
11.4 查询优化 232
11.4.1 存储方面的优化 232
11.4.2 计算方面的优化 232
11.5 性能测试结果 233
11.5.1 单机模拟集群测试 233
11.5.2 字段测试 233
11.5.3 排序测试 234
11.5.4 随机读写测试 235
附录 大数据和人工智能实验环境 237
名词索引 251
猜您喜欢