书籍详情
大数据治理与安全:从理论到开源实践
作者:刘驰,胡柏青,谢一 等
出版社:机械工业出版社
出版时间:2017-09-01
ISBN:9787111579977
定价:¥79.00
购买这本书可以去
内容简介
《大数据技术丛书·大数据治理与安全:从理论到开源实践》主要从理论和实践两个部分对大数据治理与安全技术展开详尽描述。其中理论篇主要从大数据治理的概念、作用、重要性,以及大数据治理的原则、范围及评估内容做出了详细介绍;之后从大数据安全、隐私和审计三个方面,探讨了大数据安全所面临的挑战,以及解决这些问题的技术与方案、作用与意义。开源实践篇分别从Apache的四个开源组件Falcon、Atlas、Ranger和Sentry以及Kerberos软件框架与工具介绍其在大数据治理与安全方面的功能与实践应用方案。《大数据技术丛书·大数据治理与安全:从理论到开源实践》适用于大数据应用技术爱好者以及具有一定开发经验的读者,也可以作为大数据相关课程的教学参考书,供云计算、大数据相关专业方向的本科生、研究生阅读,亦可作为相关从业人员与一线软件开发人员的参考资料。
作者简介
教授、博导、北京理工大学软件学院副院长。先后入选2015年度国家人社部“高层次留学人才回国资助计划”和第八批陕西省百人计划(短期)。分别于清华大学和英国帝国理工学院获得学士和博士学位,后在德国电信研究院(柏林)、美国IBM TJ Watson研究中心和IBM中国研究院任博士后研究员和研究主管。主要研究方向是:绿色物联网大数据高效传输与处理技术。发表高水平SCI/EI论文80余篇,授权国内外发明专利7项,编著中英文书籍8本/节。主持了国家自然科学基金、工信部2013年电子商务集成创新试点工程等20余省部级重点项目,现任国际信息处理联合会(IFIP)云计算专委会副主席、中国自动化学会大数据专委会委员、中国工程院聘中国信息与电子工程科技发展战略研究中心特聘专家(计算机应用领域)等。
目录
Contents 目 录
前 言
第一篇 理论篇
第1章 大数据治理技术2
1.1 概述2
1.1.1 大数据治理的基本概念2
1.1.2 大数据治理的意义和重要作用5
1.2 框架7
1.2.1 大数据治理框架概述7
1.2.2 大数据治理的原则9
1.2.3 大数据治理的范围11
1.2.4 大数据治理的实施与评估14
第2章 大数据安全、隐私保护和审计技术19
2.1 大数据安全19
2.1.1 大数据安全的意义和重要作用19
2.1.2 大数据安全面临的问题与挑战21
2.1.3 大数据安全防护技术23
2.2 大数据隐私保护26
2.2.1 大数据隐私保护的意义和重要作用26
2.2.2 大数据隐私保护面临的问题与挑战28
2.2.3 大数据隐私保护技术31
2.3 大数据治理审计34
2.3.1 大数据治理审计概述34
2.3.2 大数据治理审计内容37
2.3.3 大数据治理审计方法和技术39
2.3.4 大数据治理审计流程43
第二篇 开源实现篇
第3章 大数据治理之Apache Falcon48
3.1 Apache Falcon概述48
3.1.1 Apache Falcon技术概况49
3.1.2 Apache Falcon发展近况50
3.1.3 Apache Falcon技术优势50
3.1.4 Apache Falcon架构51
3.2 Apache Falcon的使用53
3.2.1 Oozie的安装与配置56
3.2.2 Falcon的安装与配置61
3.2.3 实体XML的创建与声明63
3.3 Apache Falcon场景设计与实现74
3.3.1 数据管道74
3.3.2 结构化数据导入分布式文件系统82
3.3.3 结构化数据库与数据仓库的交互89
3.3.4 跨集群数据传输104
3.3.5 数据镜像109
3.3.6 数据仓库中的数据操作113
3.4 Apache Falcon优化与性能分析118
3.4.1 Apache Falcon控制流118
3.4.2 分布式部署119
3.4.3 安全模式120
3.4.4 Apache Falcon优化122
3.5 Apache Falcon应用举例123
3.5.1 InMobi基于Falcon的数据治理123
3.5.2 Expedia基于Falcon的数据治理125
3.6 本章小结126
第4章 大数据治理之Apache Atlas127
4.1 Apache Atlas概述127
4.1.1 Apache Atlas技术概况127
4.1.2 Apache Atlas发展近况130
4.1.3 Apache Atlas技术优势133
4.1.4 Apache Atlas架构136
4.2 Apache Atlas的配置与使用143
4.2.1 安装配置Apache Atlas143
4.2.2 添加或修改Atlas Web UI的登录账户158
4.2.3 配置Hive通过Hive HOOK导入数据159
4.2.4 配置Sqoop通过Sqoop HOOK导入数据163
4.2.5 配置Storm通过Storm HOOK导入数据167
4.2.6 配置Falcon通过Falcon HOOK导入数据173
4.3 Apache Atlas的场景设计176
4.3.1 Atlas总场景介绍176
4.3.2 Atlas非实时数据场景178
4.3.3 Atlas实时数据场景183
4.3.4 Hive数据表操作183
4.4 Apache Atlas优化与性能分析190
4.5 本章小结193
第5章 大数据安全之Apache Ranger194
5.1 Apache Ranger概述194
5.1.1 Ranger技术概况194
5.1.2 Ranger发展史及近况196
5.1.3 Ranger的特点和作用197
5.1.4 Ranger架构199
5.1.5 Ranger应用场景200
5.2 Apache Ranger的安全认证配置201
5.2.1 Ranger安装与部署201
5.2.2 安全及访问权限控制机制206
5.2.3 Ranger集成HDFS的安全认证机制与配置208
5.2.4 Ranger集成YARN的安全认证机制与配置213
5.2.5 Ranger集成Hive的安全认证机制与配置217
5.2.6 Ranger集成HBase的安全认证机制与配置221
5.2.7 Ranger集成Kafka的安全认证机制与配置228
5.2.8 Ranger集成Atlas的安全认证机制与配置235
5.2.9 Ranger集成Storm的安全认证机制与配置238
5.2.10 Ranger集成Solr的安全认证机制与配置246
5.3 Apache Ranger的功能配置254
5.3.1 Tag同步验证254
5.3.2 各类Policy验证255
5.4 Apache Ranger优化与性能分析262
5.5 本章小结263
第6章 大数据安全之Apache Sentry265
6.1 Apache Sentry 概述265
6.1.1 Apache Sentry技术概况265
6.1.2 Apache Sentry发展近况267
6.1.3 Apache Sentry技术优势269
6.1.4 Apache Sentry架构272
6.2 Apache Sentry的安装与配置274
6.2.1 先决条件274
6.2.2 Impala的安装与调试274
6.2.3 Apache Sentry的安装和配置282
6.2.4 Apache Sentry与Impala的集成286
6.3 Apache Sentry场景设计之Sentry对Impala的控制288
6.3.1 场景数据准备288
6.3.2 基于文件存储元数据的场景验证288
6.3.3 基于数据库存储元数据的场景验证292
6.4 Apache Sentry场景设计之Sentry对Hive的控制296
6.4.1 Hive与Sentry的集成配置296
6.4.2 准备实验数据298
6.4.3 基于文件存储方式的数据表操作298
6.4.4 基于数据库存储方式的数据表操作301
6.5 本章小结305
第7章 大数据安全之Kerberos认证306
7.1 Kerberos概述306
7.1.1 Kerberos技术概况306
7.1.2 Kerberos发展史及近况307
7.1.3 Kerberos架构308
7.1.4 Kerberos的认证流程309
7.1.5 Kerberos的风险与缺陷311
7.1.6 Kerberos应用举例312
7.2 Kerberos使用操作说明314
7.2.1 名词解释314
7.2.2 KDC
前 言
第一篇 理论篇
第1章 大数据治理技术2
1.1 概述2
1.1.1 大数据治理的基本概念2
1.1.2 大数据治理的意义和重要作用5
1.2 框架7
1.2.1 大数据治理框架概述7
1.2.2 大数据治理的原则9
1.2.3 大数据治理的范围11
1.2.4 大数据治理的实施与评估14
第2章 大数据安全、隐私保护和审计技术19
2.1 大数据安全19
2.1.1 大数据安全的意义和重要作用19
2.1.2 大数据安全面临的问题与挑战21
2.1.3 大数据安全防护技术23
2.2 大数据隐私保护26
2.2.1 大数据隐私保护的意义和重要作用26
2.2.2 大数据隐私保护面临的问题与挑战28
2.2.3 大数据隐私保护技术31
2.3 大数据治理审计34
2.3.1 大数据治理审计概述34
2.3.2 大数据治理审计内容37
2.3.3 大数据治理审计方法和技术39
2.3.4 大数据治理审计流程43
第二篇 开源实现篇
第3章 大数据治理之Apache Falcon48
3.1 Apache Falcon概述48
3.1.1 Apache Falcon技术概况49
3.1.2 Apache Falcon发展近况50
3.1.3 Apache Falcon技术优势50
3.1.4 Apache Falcon架构51
3.2 Apache Falcon的使用53
3.2.1 Oozie的安装与配置56
3.2.2 Falcon的安装与配置61
3.2.3 实体XML的创建与声明63
3.3 Apache Falcon场景设计与实现74
3.3.1 数据管道74
3.3.2 结构化数据导入分布式文件系统82
3.3.3 结构化数据库与数据仓库的交互89
3.3.4 跨集群数据传输104
3.3.5 数据镜像109
3.3.6 数据仓库中的数据操作113
3.4 Apache Falcon优化与性能分析118
3.4.1 Apache Falcon控制流118
3.4.2 分布式部署119
3.4.3 安全模式120
3.4.4 Apache Falcon优化122
3.5 Apache Falcon应用举例123
3.5.1 InMobi基于Falcon的数据治理123
3.5.2 Expedia基于Falcon的数据治理125
3.6 本章小结126
第4章 大数据治理之Apache Atlas127
4.1 Apache Atlas概述127
4.1.1 Apache Atlas技术概况127
4.1.2 Apache Atlas发展近况130
4.1.3 Apache Atlas技术优势133
4.1.4 Apache Atlas架构136
4.2 Apache Atlas的配置与使用143
4.2.1 安装配置Apache Atlas143
4.2.2 添加或修改Atlas Web UI的登录账户158
4.2.3 配置Hive通过Hive HOOK导入数据159
4.2.4 配置Sqoop通过Sqoop HOOK导入数据163
4.2.5 配置Storm通过Storm HOOK导入数据167
4.2.6 配置Falcon通过Falcon HOOK导入数据173
4.3 Apache Atlas的场景设计176
4.3.1 Atlas总场景介绍176
4.3.2 Atlas非实时数据场景178
4.3.3 Atlas实时数据场景183
4.3.4 Hive数据表操作183
4.4 Apache Atlas优化与性能分析190
4.5 本章小结193
第5章 大数据安全之Apache Ranger194
5.1 Apache Ranger概述194
5.1.1 Ranger技术概况194
5.1.2 Ranger发展史及近况196
5.1.3 Ranger的特点和作用197
5.1.4 Ranger架构199
5.1.5 Ranger应用场景200
5.2 Apache Ranger的安全认证配置201
5.2.1 Ranger安装与部署201
5.2.2 安全及访问权限控制机制206
5.2.3 Ranger集成HDFS的安全认证机制与配置208
5.2.4 Ranger集成YARN的安全认证机制与配置213
5.2.5 Ranger集成Hive的安全认证机制与配置217
5.2.6 Ranger集成HBase的安全认证机制与配置221
5.2.7 Ranger集成Kafka的安全认证机制与配置228
5.2.8 Ranger集成Atlas的安全认证机制与配置235
5.2.9 Ranger集成Storm的安全认证机制与配置238
5.2.10 Ranger集成Solr的安全认证机制与配置246
5.3 Apache Ranger的功能配置254
5.3.1 Tag同步验证254
5.3.2 各类Policy验证255
5.4 Apache Ranger优化与性能分析262
5.5 本章小结263
第6章 大数据安全之Apache Sentry265
6.1 Apache Sentry 概述265
6.1.1 Apache Sentry技术概况265
6.1.2 Apache Sentry发展近况267
6.1.3 Apache Sentry技术优势269
6.1.4 Apache Sentry架构272
6.2 Apache Sentry的安装与配置274
6.2.1 先决条件274
6.2.2 Impala的安装与调试274
6.2.3 Apache Sentry的安装和配置282
6.2.4 Apache Sentry与Impala的集成286
6.3 Apache Sentry场景设计之Sentry对Impala的控制288
6.3.1 场景数据准备288
6.3.2 基于文件存储元数据的场景验证288
6.3.3 基于数据库存储元数据的场景验证292
6.4 Apache Sentry场景设计之Sentry对Hive的控制296
6.4.1 Hive与Sentry的集成配置296
6.4.2 准备实验数据298
6.4.3 基于文件存储方式的数据表操作298
6.4.4 基于数据库存储方式的数据表操作301
6.5 本章小结305
第7章 大数据安全之Kerberos认证306
7.1 Kerberos概述306
7.1.1 Kerberos技术概况306
7.1.2 Kerberos发展史及近况307
7.1.3 Kerberos架构308
7.1.4 Kerberos的认证流程309
7.1.5 Kerberos的风险与缺陷311
7.1.6 Kerberos应用举例312
7.2 Kerberos使用操作说明314
7.2.1 名词解释314
7.2.2 KDC
猜您喜欢