书籍详情

企业数据湖

企业数据湖

作者:(印度)汤姆斯·约翰,潘卡·米斯拉

出版社:机械工业出版社

出版时间:2019-01-01

ISBN:9787111615538

定价:¥99.00

购买这本书可以去
内容简介
  本书主要分为三部分,第一部分介绍数据湖的概念、数据湖在企业中的重要性以及Lambda架构。第二部分深入研究使用Lambda架构构建数据湖所需的主要技术组件,介绍流行的大数据技术,如Apache Hadoop、Sqoop、Flume、Flink和Elasticsearch等。第三部分展示一些非常实用的数据湖落地建议,包括企业应如何建立一个真实的数据湖,以及提高数据湖运营效率所需的其他技术组件。第三部分最后还详细介绍了几个实际的用例,以及在企业内实现这些用例时应考虑的重要方面。通过阅读本书,你将:·使用大数据技术构建企业级数据湖。·掌握Lambda架构的精髓,以及如何在企业内使用它。·学习与Apache Sqoop及其功能相关的技术细节。·Kafka与Hadoop组件集成,用于获取企业数据。·使用Flume进行流式数据处理。·理解Flink与流式数据处理的关系。·Hadoop生态圈组件的协同使用,以及它们能带来的好处。·使用Elastic Stack构建快速、流式、高吞吐应用。·确保数据摄取处理在不同数据格式配置时的一致性。
作者简介
  汤姆斯·约翰(Tomcy John)是一名企业级Java技术专家,拥有工学学士学位,并且有超过14年多行业的开发经验。他目前担任Emirates Group IT核心架构部门的首席架构师。在此之前,他曾在甲骨文公司、安永公司任职。他主要擅长构建企业级应用,并且在企业内担任首席导师和布道者,以促进新技术融入企业标准技术栈。 潘卡·米斯拉(Pankaj Misra)是一名技术传播者,拥有工程学士学位,并且有超过16年跨多个业务领域的技术经验。自2015年以来,他一直在Emirates Group IT任职。他擅长架构和构建多技术栈的解决方案及实现。他在印度的技术论坛上也是一名活跃分子,参与过多个海量数据、可水平扩展的近实时数据处理和分析产品的构建。
目录

译者序 

推荐序 

关于作者 

关于技术审核人员 

前言 

第一部分 概述 

第1章 数据导论 2 

1.1 探索数据 3 

1.2 什么是企业数据 4 

1.3 企业数据管理 5 

1.4 大数据相关概念 6 

1.5 数据与企业的相关性 8 

1.6 数据质量 9 

1.7 企业中数据如何存放 10 

1.7.1 内联网(企业内部) 10 

1.7.2 互联网(企业外部) 10 

1.7.3 数据持久化存储(RDBMS或者NoSQL) 12 

1.7.4 传统的数据仓库 13 

1.7.5 文件存储 13 

1.8 企业现状 14 

1.9 企业数字化转型 15 

1.10 数据湖用例启示 16 

1.11 总结 17 

第2章 数据湖概念概览 18 

2.1 什么是数据湖 18 

2.2 数据湖如何帮助企业 19 

2.3 数据湖是如何工作的 20 

2.4 数据湖与数据仓库的区别 21 

2.5 数据湖的构建方法 22 

2.6 Lambda架构驱动的数据湖 22 

2.6.1 数据摄取层——摄取数据用于处理和存储 23 

2.6.2 批处理层——批量处理已提取数据 23 

2.6.3 快速处理层——近实时数据处理 24 

2.6.4 数据存储层——存储所有数据 24 

2.6.5 服务层——数据交付与导出 25 

2.6.6 数据获取层——从源系统获取数据 25 

2.6.7 消息层——数据传输的保障 26 

2.6.8 探索数据摄取层 27 

2.6.9 探索Lambda层 28 

2.7 总结 35 

第3章 Lambda架构:一种数据湖 

实现模式 36 

3.1 什么是Lambda架构 36 

3.2 Lambda 架构简史 37 

3.3 Lambda架构的原则 37 

3.3.1 容错原则 38 

3.3.2 不可变数据原则 38 

3.3.3 重新计算原则 38 

3.4 Lambda架构的组件 38 

3.4.1 批处理层 39 

3.4.2 快速处理层 41 

3.4.3 服务层 43 

3.5 Lambda架构的完整工作原理 44 

3.6 Lambda架构的优势 45 

3.7 Lambda架构的劣势 46 

3.8 Lambda架构技术概览 46 

3.9 应用Lambda 47 

3.9.1 企业级日志分析 47 

3.9.2 获取和分析传感器数据 47 

3.9.3 电子邮件平台实时统计 48 

3.9.4 实时赛事分析 48 

3.9.5 推荐引擎 48 

3.9.6 安全威胁分析 48 

3.9.7 多渠道用户行为分析 48 

3.10 Lambda架构运行范例 48 

3.11 Kappa架构 49 

3.12 总结 50 

第4章 数据湖中的Lambda应用 51 

4.1 Hadoop发行版本介绍 51 

4.2 影响企业大数据技术栈选择的因素 53 

4.2.1 技术能力 53 

4.2.2 是否易于部署和维护 53 

4.2.3 集成准备 53 

4.3 批处理层与数据处理 53 

4.3.1 NameNode服务器 54 

4.3.2 Secondary NameNode服务器 55 

4.3.3 YARN 55 

4.3.4 数据存储节点 55 

4.3.5 快速处理层 56 

4.3.6 Flume用于数据获取 57 

4.3.7 Spark Streaming 58 

4.4 服务层 62 

4.4.1 数据存储层 62 

4.4.2 数据访问层 63 

4.5 总结 64 

第二部分 数据湖的技术组件 

第5章 基于Apache Sqoop的批量数据获取 68 

5.1 数据湖背景中的数据获取 68 

5.1.1 数据获取层 68 

5.1.2 批量数据获取——技术路线图 69 

5.2 为什么使用Apache Sqoop 70 

5.2.1 Sqoop简史 71 

5.2.2 Sqoop的优势 71 

5.2.3 Sqoop的劣势 72 

5.3 Sqoop的功能 72 

5.3.1 Sqoop 2的架构 74 

5.3.2 Sqoop 1与Sqoop 2 75 

5.3.3 Sqoop的功能 77 

5.3.4 使用Sqoop导入数据 77 

5.3.5 使用Sqoop导出数据 78 

5.4 Sqoop connector 79 

5.5 Sqoop对HDFS的支持 81 

5.6 Sqoop运行范例 81 

5.6.1 安装与配置 81 

5.6.2 数据源配置 90 

5.6.3 Sqoop配置(数据库驱动) 91 

5.6.4 将HDFS配置为目的地 91 

5.6.5 Sqoop数据导入 91 

5.6.6 Sqoop数据导出 97 

5.6.7 Sqoop job 98 

5.6.8 Sqoop 2 99 

5.6.9 SCV用例视角中的Sqoop 102 

5.7 适合使用Sqoop的场景 103 

5.8 不适合使用Sqoop的场景 104 

5.9 实时Sqooping是否可行 104 

5.10 其他选项 104 

5.10.1 原生大数据connector 105 

5.10.2 Talend 106 

5.10.3 Pentaho Kettle(PDI——Pentaho数据集成) 106 

5.11 总结 106 

第6章 基于Apache Flume的流式数据获取 108 

6.1 数据获取 108 

6.1.1 什么是流式数据 109 

6.1.2 批量数据和流式数据 110 

6.1.3 流式数据获取——技术路线图 110 

6.1.4 什么是Flume 111 

6.1.5 Sqoop和Flume 112 

6.2 为什么使用Flume 113 

6.2.1 Flume简史 113 

6.2.2 Flume的优势 113 

6.2.3 Flume的劣势 114 

6.3 Flume的架构原则 114 

6.4 Flume架构 115 

6.4.1 Flume 架构之一:分布式数据流水线 116 

6.4.2 Flume 架构之二:扇出 117 

6.4.3 Flume 架构之三:扇入 117 

6.4.4 Flume架构中的3层设计 118 

6.4.5 高级Flume架构 118 

6.4.6 Flume的可靠性级别 120 

6.5 Flume事件——流式数据 120 

6.6 Flume Agent 120 

6.7 Flume Source 122 

6.8 Flume Channel 123 

6.9 Flume Sink 125 

6.10 Flume配置 126 

6.11 Flume事务管理 127 

6.12 Flume的其他组件 128 

6.12.1 Channel Processor 128 

6.12.2 Interceptor 129 

6.12.3 Channel Selector 129 

6.12.4 Sink Group 130 

6.12.5 事

猜您喜欢

读书导航