书籍详情
Apache Kylin权威指南(第2版)
作者:Apache Kylin核心团队
出版社:机械工业出版社
出版时间:2019-09-01
ISBN:9787111633297
定价:¥99.00
购买这本书可以去
内容简介
Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎,将大数据的查询速度和并发性能提升至原来的百倍以上,为超大规模数据集上的交互式大数据分析打开了大门。本书由Apache Kylin核心团队编写,系统地介绍了Apache Kylin安装、入门、调优、可视化、运维管理、流式计算、Spark构建、扩展开发、跟主流云平台的集成,以及经典案例等方面,是目前市面上学习Apache Kylin的材料。本书第1章和第2章是基本概念和快速入门,为初学者打下坚实基础。第3章和第4章介绍基本的Cube优化手段和增量构建。第5章展示丰富的查询接口和其上的可视化能力。第6章介绍了基于CubePlanner的自动优化的核心算法和原理。第7章是进阶的流式准实时构建,以将构建的批次间隔缩短到分钟级。第8章介绍如何使用Spark进行Cube构建,以及如何调优性能。第9章通过介绍若干Kylin的重点案例,帮助读者理解Kylin的使用场景和重要价值。第10章介绍可扩展架构和二次开发接口,适合高级开发者。第11章则介绍企业级功能、用户的认证和授权相关知识。第12章着重于问题的排查诊断、日常的运维管理,以及如何通过社区获得帮助等内容。第13章分别以AWS,微软Azure和阿里云为例,介绍如何在主流云平台上部署和使用Kylin。第14章说明如何参与和贡献到开源项目。第15章介绍了Apache Kylin的未来发展方向。
作者简介
本书在2016年一稿撰写的时候,Kylin核心团队刚刚加入新成立的Kyligence 公司,一切从头开始,当时把写书当作了头等大事,整个六人团队都参与了其中:韩卿、李栋、李扬、马洪宾、史少锋、仲俭,署名“Apache Kylin 核心团队”。三年后,Kyligence 已经发展到一百多人;在更新第二版的时候,更多年轻小伙伴加入了进来,包括新Kylin Committer/contributor 陈志雄、龙超、翟娜、孙宇婕;BI 专家:何京珂、汤雪;解决方案专家冯礼、李森辉、宗正;技术支持工程师周丁倩,以及市场部美女编辑符云霞等;此外还有许多同事参与了书稿的审阅。他们都义务将自己的业余时间贡献出来,历时数月完成书稿的更新、修正和校对。
目录
推荐序 \n
前 言 \n
第1章 Apache Kylin概述1 \n
1.1 背景和历史1 \n
1.2 Apache Kylin的使命3 \n
1.2.1 为什么要使用Apache Kylin3 \n
1.2.2 Apache Kylin怎样解决关键问题4 \n
1.3 Apache Kylin的工作原理5 \n
1.3.1 维度和度量简介5 \n
1.3.2 Cube和Cuboid6 \n
1.3.3 工作原理7 \n
1.4 Apache Kylin的技术架构7 \n
1.5 Apache Kylin的主要特点9 \n
1.5.1 标准SQL接口9 \n
1.5.2 支持超大数据集10 \n
1.5.3 亚秒级响应10 \n
1.5.4 可伸缩性和高吞吐率10 \n
1.5.5 BI及可视化工具集成11 \n
1.6 与其他开源产品的比较11 \n
1.7 小结13 \n
第2章 快速入门 14 \n
2.1 核心概念 14 \n
2.1.1 数据仓库、OLAP与BI14 \n
2.1.2 维度建模15 \n
2.1.3 事实表和维度表16 \n
2.1.4 维度和度量16 \n
2.1.5 Cube、Cuboid和Cube Segment16 \n
2.2 在Hive中准备数据 17 \n
2.2.1 多维数据模型17 \n
2.2.2 维度表的设计 17 \n
2.2.3 Hive表分区 18 \n
2.2.4 了解维度的基数 18 \n
2.2.5 样例数据18 \n
2.3 安装和启动Apache Kylin19 \n
2.3.1 环境准备19 \n
2.3.2 必要组件19 \n
2.3.3 启动Apache Kylin19 \n
2.4 设计Cube 19 \n
2.4.1 导入Hive表定义19 \n
2.4.2 创建数据模型21 \n
2.4.3 创建Cube23 \n
2.5 构建Cube 32 \n
2.5.1 全量构建和增量构建34 \n
2.5.2 历史数据刷新35 \n
2.5.3 合并36 \n
2.6 查询Cube 38 \n
2.6.1 Apache Kylin查询介绍38 \n
2.6.2 查询下压40 \n
2.7 SQL参考 41 \n
2.8 小结41 \n
第3章 Cube优化42 \n
3.1 Cuboid剪枝优化42 \n
3.1.1 维度的组合42 \n
3.1.2 检查Cuboid数量43 \n
3.1.3 检查Cube大小45 \n
3.1.4 空间与时间的平衡46 \n
3.2 剪枝优化工具47 \n
3.2.1 使用衍生维度47 \n
3.2.2 聚合组49 \n
3.2.3 必需维度51 \n
3.2.4 层级维度51 \n
3.2.5 联合维度52 \n
3.3 并发粒度优化54 \n
3.4 Rowkey优化55 \n
3.4.1 调整Rowkey顺序55 \n
3.4.2 选择合适的维度编码56 \n
3.4.3 按维度分片57 \n
3.5 Top_N度量优化58 \n
3.6 Cube Planner优化61 \n
3.7 其他优化62 \n
3.7.1 降低度量精度62 \n
3.7.2 及时清理无用Segment63 \n
3.8 小结63 \n
第4章 增量构建64 \n
4.1 为什么要增量构建64 \n
4.2 设计增量Cube66 \n
4.2.1 设计增量Cube的条件66 \n
4.2.2 增量Cube的创建67 \n
4.3 触发增量构建69 \n
4.3.1 Web GUI触发69 \n
4.3.2 构建相关的REST API70 \n
4.4 管理Cube碎片76 \n
4.4.1 合并Segment76 \n
4.4.2 自动合并77 \n
4.4.3 保留Segment79 \n
4.4.4 数据持续更新79 \n
4.5 小结80 \n
第5章 查询和可视化81 \n
5.1 Web GUI81 \n
5.1.1 查询81 \n
5.1.2 显示结果82 \n
5.2 REST API84 \n
5.2.1 查询认证85 \n
5.2.2 查询请求参数85 \n
5.2.3 查询返回结果86 \n
5.3 ODBC87 \n
5.4 JDBC90 \n
5.4.1 获得驱动包90 \n
5.4.2 认证90 \n
5.4.3 URL格式90 \n
5.4.4 获取元数据信息91 \n
5.5 Tableau集成91 \n
5.5.1 连接Kylin数据源92 \n
5.5.2 设计数据模型93 \n
5.5.3 “Live”连接93 \n
5.5.4 自定义SQL94 \n
5.5.5 可视化展现94 \n
5.5.6 发布到Tableau Server95 \n
5.6 Zeppelin集成95 \n
5.6.1 Zeppelin架构简介95 \n
5.6.2 KylinInterpreter的工作原理96 \n
5.6.3 如何使用Zeppelin访问Kylin96 \n
5.7 Superset 集成98 \n
5.7.1 下载Kylinpy98 \n
5.7.2 安装Superset99 \n
5.7.3 在Superset中添加Kylin Database100 \n
5.7.4 在Superset中添加Kylin Table100 \n
5.7.5 在Superset中创建图表103 \n
5.7.6 在Superset中通过SQL Lab探索Kylin105 \n
5.8 QlikView 集成106 \n
5.8.1 连接Kylin数据源106 \n
5.8.2 “Direct Query”连接107 \n
5.8.3 创建可视化109 \n
5.8.4 发布到QlikView Server110 \n
5.9 Qlik Sense集成110 \n
5.9.1 连接Kylin数据源110 \n
5.9.2 “Direct Query”连接112 \n
5.9.3 创建可视化114 \n
5.9.4 发布到Qlik Sense Hub115 \n
5.9.5 在Qlik Sense Hub中连接Kylin数据源117 \n
5.10 Redash集成118 \n
5.10.1 连接Kylin数据源118 \n
5.10.2 新建查询119 \n
5.10.3 新建仪表盘121 \n
5.11 MicroStrategy 集成122 \n
5.11.1 创建数据库实例123 \n
5.11.2 导入逻辑表124 \n
5.11.3 创建属性、事实和度量124 \n
5.11.4 创建报告124 \n
5.11.5 MicroStrategy连接Kylin最佳实践126 \n
5.12 小结127 \n
第6章 Cube Planner及仪表盘128 \n
6.1 Cube Planner128 \n
6.1.1 为什么要引入Cube Planner128 \n
6.1.2 Cube Planner 算法介绍129 \n
6.1.3 使用Cube Planner131 \n
6.2 System Cube134 \n
6.2.1 开启System Cube134 \n
6.2.2 构建和更新System Cube135 \n
6.3 仪表盘135 \n
6.4 小结137 \n
第7章 流式构建138 \n
7.1 为什么要进行流式构建139 \n
7.2 准备流式数据139 \n
7.2.1 数据格式139 \n
7.2.2 消息队列140 \n
7.2.3 创建Schema141 \n
7.3 设计流式Cube144 \n
7.3.1 创建Model144 \n
7.3.2 创建Cube145 \n
7.4 流式构建原理147 \n
7.5 触发流式构建150 \n
7.5.1 单次触发构建151 \n
7.5.2 自动化多次触发152 \n
7.5.3 初始化构建起点152 \n
7.5.4 其他操作153 \n
7.5.5 出错处理153 \n
7.6 小结154 \n
第8章 使用Spark155 \n
8.1 为什么要引入Apache Spark155 \n
8.2 Spark构建原理156 \n
8.3 使用Spark构建Cube158 \n
8.3.1 配置Spark引擎1
前 言 \n
第1章 Apache Kylin概述1 \n
1.1 背景和历史1 \n
1.2 Apache Kylin的使命3 \n
1.2.1 为什么要使用Apache Kylin3 \n
1.2.2 Apache Kylin怎样解决关键问题4 \n
1.3 Apache Kylin的工作原理5 \n
1.3.1 维度和度量简介5 \n
1.3.2 Cube和Cuboid6 \n
1.3.3 工作原理7 \n
1.4 Apache Kylin的技术架构7 \n
1.5 Apache Kylin的主要特点9 \n
1.5.1 标准SQL接口9 \n
1.5.2 支持超大数据集10 \n
1.5.3 亚秒级响应10 \n
1.5.4 可伸缩性和高吞吐率10 \n
1.5.5 BI及可视化工具集成11 \n
1.6 与其他开源产品的比较11 \n
1.7 小结13 \n
第2章 快速入门 14 \n
2.1 核心概念 14 \n
2.1.1 数据仓库、OLAP与BI14 \n
2.1.2 维度建模15 \n
2.1.3 事实表和维度表16 \n
2.1.4 维度和度量16 \n
2.1.5 Cube、Cuboid和Cube Segment16 \n
2.2 在Hive中准备数据 17 \n
2.2.1 多维数据模型17 \n
2.2.2 维度表的设计 17 \n
2.2.3 Hive表分区 18 \n
2.2.4 了解维度的基数 18 \n
2.2.5 样例数据18 \n
2.3 安装和启动Apache Kylin19 \n
2.3.1 环境准备19 \n
2.3.2 必要组件19 \n
2.3.3 启动Apache Kylin19 \n
2.4 设计Cube 19 \n
2.4.1 导入Hive表定义19 \n
2.4.2 创建数据模型21 \n
2.4.3 创建Cube23 \n
2.5 构建Cube 32 \n
2.5.1 全量构建和增量构建34 \n
2.5.2 历史数据刷新35 \n
2.5.3 合并36 \n
2.6 查询Cube 38 \n
2.6.1 Apache Kylin查询介绍38 \n
2.6.2 查询下压40 \n
2.7 SQL参考 41 \n
2.8 小结41 \n
第3章 Cube优化42 \n
3.1 Cuboid剪枝优化42 \n
3.1.1 维度的组合42 \n
3.1.2 检查Cuboid数量43 \n
3.1.3 检查Cube大小45 \n
3.1.4 空间与时间的平衡46 \n
3.2 剪枝优化工具47 \n
3.2.1 使用衍生维度47 \n
3.2.2 聚合组49 \n
3.2.3 必需维度51 \n
3.2.4 层级维度51 \n
3.2.5 联合维度52 \n
3.3 并发粒度优化54 \n
3.4 Rowkey优化55 \n
3.4.1 调整Rowkey顺序55 \n
3.4.2 选择合适的维度编码56 \n
3.4.3 按维度分片57 \n
3.5 Top_N度量优化58 \n
3.6 Cube Planner优化61 \n
3.7 其他优化62 \n
3.7.1 降低度量精度62 \n
3.7.2 及时清理无用Segment63 \n
3.8 小结63 \n
第4章 增量构建64 \n
4.1 为什么要增量构建64 \n
4.2 设计增量Cube66 \n
4.2.1 设计增量Cube的条件66 \n
4.2.2 增量Cube的创建67 \n
4.3 触发增量构建69 \n
4.3.1 Web GUI触发69 \n
4.3.2 构建相关的REST API70 \n
4.4 管理Cube碎片76 \n
4.4.1 合并Segment76 \n
4.4.2 自动合并77 \n
4.4.3 保留Segment79 \n
4.4.4 数据持续更新79 \n
4.5 小结80 \n
第5章 查询和可视化81 \n
5.1 Web GUI81 \n
5.1.1 查询81 \n
5.1.2 显示结果82 \n
5.2 REST API84 \n
5.2.1 查询认证85 \n
5.2.2 查询请求参数85 \n
5.2.3 查询返回结果86 \n
5.3 ODBC87 \n
5.4 JDBC90 \n
5.4.1 获得驱动包90 \n
5.4.2 认证90 \n
5.4.3 URL格式90 \n
5.4.4 获取元数据信息91 \n
5.5 Tableau集成91 \n
5.5.1 连接Kylin数据源92 \n
5.5.2 设计数据模型93 \n
5.5.3 “Live”连接93 \n
5.5.4 自定义SQL94 \n
5.5.5 可视化展现94 \n
5.5.6 发布到Tableau Server95 \n
5.6 Zeppelin集成95 \n
5.6.1 Zeppelin架构简介95 \n
5.6.2 KylinInterpreter的工作原理96 \n
5.6.3 如何使用Zeppelin访问Kylin96 \n
5.7 Superset 集成98 \n
5.7.1 下载Kylinpy98 \n
5.7.2 安装Superset99 \n
5.7.3 在Superset中添加Kylin Database100 \n
5.7.4 在Superset中添加Kylin Table100 \n
5.7.5 在Superset中创建图表103 \n
5.7.6 在Superset中通过SQL Lab探索Kylin105 \n
5.8 QlikView 集成106 \n
5.8.1 连接Kylin数据源106 \n
5.8.2 “Direct Query”连接107 \n
5.8.3 创建可视化109 \n
5.8.4 发布到QlikView Server110 \n
5.9 Qlik Sense集成110 \n
5.9.1 连接Kylin数据源110 \n
5.9.2 “Direct Query”连接112 \n
5.9.3 创建可视化114 \n
5.9.4 发布到Qlik Sense Hub115 \n
5.9.5 在Qlik Sense Hub中连接Kylin数据源117 \n
5.10 Redash集成118 \n
5.10.1 连接Kylin数据源118 \n
5.10.2 新建查询119 \n
5.10.3 新建仪表盘121 \n
5.11 MicroStrategy 集成122 \n
5.11.1 创建数据库实例123 \n
5.11.2 导入逻辑表124 \n
5.11.3 创建属性、事实和度量124 \n
5.11.4 创建报告124 \n
5.11.5 MicroStrategy连接Kylin最佳实践126 \n
5.12 小结127 \n
第6章 Cube Planner及仪表盘128 \n
6.1 Cube Planner128 \n
6.1.1 为什么要引入Cube Planner128 \n
6.1.2 Cube Planner 算法介绍129 \n
6.1.3 使用Cube Planner131 \n
6.2 System Cube134 \n
6.2.1 开启System Cube134 \n
6.2.2 构建和更新System Cube135 \n
6.3 仪表盘135 \n
6.4 小结137 \n
第7章 流式构建138 \n
7.1 为什么要进行流式构建139 \n
7.2 准备流式数据139 \n
7.2.1 数据格式139 \n
7.2.2 消息队列140 \n
7.2.3 创建Schema141 \n
7.3 设计流式Cube144 \n
7.3.1 创建Model144 \n
7.3.2 创建Cube145 \n
7.4 流式构建原理147 \n
7.5 触发流式构建150 \n
7.5.1 单次触发构建151 \n
7.5.2 自动化多次触发152 \n
7.5.3 初始化构建起点152 \n
7.5.4 其他操作153 \n
7.5.5 出错处理153 \n
7.6 小结154 \n
第8章 使用Spark155 \n
8.1 为什么要引入Apache Spark155 \n
8.2 Spark构建原理156 \n
8.3 使用Spark构建Cube158 \n
8.3.1 配置Spark引擎1
猜您喜欢