书籍详情
大数据实时计算与应用
作者:吴斌 著
出版社:清华大学出版社
出版时间:2018-07-01
ISBN:9787302503217
定价:¥36.00
购买这本书可以去
内容简介
本书定位于大数据专业核心技术——实时计算,重点讨论大数据应用场景中的数据特点和应用需求的实时流计算技术。 本书通过对分布式实时计算系统的分析,将学习部分按功能性质划分成四个模块,分别为Kafka数据流处理模块、Strom实时计算模块、HBase数据存储模块和Zookeeper分布式协调模块。对此四个工作模块进行教学化处理,形成HBase基础操作、Zookeeper集群管理、配置Storm集群等核心课程体系,并配以实例使学习者便于理解,易于上手,掌握实时计算Storm相关的基础知识和实际业务系统的开发能力。
作者简介
暂缺《大数据实时计算与应用》作者简介
目录
目录
第1章分布式实时计算系统
1.1分布式的概念
1.1.1分布式系统
1.1.2分布式计算
1.2分布式通信
1.2.1分布式通信基础
1.2.2消息队列
1.2.3Storm计算模型
1.3分布式实时计算系统架构
1.3.1数据获取——Kafka
1.3.2数据处理——Storm
1.3.3数据存储——HBase
1.4系统架构
本章小结
习题
第2章初识Kafka
2.1什么是Kafka
2.1.1Kafka概述
2.1.2使用场景
2.1.3Kafka基本特性
2.1.4性能
2.1.5总结
2.1.6Kafka在LinkedIn中的应用
2.2Topics和logs
2.3分布式——consumers和producers
本章小结
习题
第3章Kafka环境搭建
3.1服务器搭建
3.2开发环境搭建
本章小结
习题
第4章Kafka消息传送
4.1消息传输的事务定义
4.2性能优化
4.2.1消息集
4.2.2数据压缩
4.3生产者和消费者
4.3.1Kafka生产者的消息发送
4.3.2Kafka consumer
4.4主从同步
4.5客户端API
4.5.1Kafka producer API
4.5.2Kafka consumer API
4.6消息和日志
本章小结
习题
第5章Zookeeper开发
5.1Zookeeper的来源
5.2Zookeeper基础
5.2.1基本概念
5.2.2Zookeeper架构
5.3Zookeeper的API
5.3.1建立会话
5.3.2管理权
5.3.3节点注册
5.3.4任务队列化
5.4状态变化处理
5.5故障处理
5.6Zookeeper集群管理
5.6.1集群配置
5.6.2集群管理
本章小结
习题
第6章初识HBase
6.1什么是HBase
6.1.1大数据的背景
6.1.2HBase架构
6.1.3HBase存储API
6.2HBase部署
6.2.1HBase配置及安装
6.2.2运行模式
6.2.3集群操作
本章小结
习题
第7章HBase基础操作
7.1CRUD操作
7.1.1Put操作
7.1.2Get操作
7.1.3Delete操作
7.2批处理操作
7.3行锁
7.4扫描
7.5其他操作
7.5.1HTable方法
7.5.2Bytes方法
本章小结
习题
第8章HBase高阶特性
8.1过滤器
8.1.1什么是过滤器
8.1.2比较过滤器
8.1.3专用过滤器
8.1.4附加过滤器
8.2计数器
8.2.1什么是计数器
8.2.2单计数器及多计数器
8.3协处理器
8.3.1什么是协处理器
8.3.2协处理器API应用
本章小结
习题
第9章管理HBase
9.1HBase数据描述
9.1.1表
9.1.2列簇
9.1.3属性
9.2表管理API
9.2.1基础操作
9.2.2集群管理
本章小结
习题
第10章初识Storm
10.1什么是Storm
10.1.1Storm能做什么
10.1.2Storm的特性
10.1.3Storm分布式计算结构
10.2构建topology
10.2.1Storm的基本概念
10.2.2构建topology
10.2.3示例: 单词计数
10.3Storm并发机制
10.3.1topology并发机制
10.3.2给topology增加Worker
10.3.3配置Executor和task
10.4数据流分组的理解
10.5消息的可靠处理
10.5.1消息被处理后会发生什么
10.5.2Storm可靠性的实现方法
10.5.3调整可靠性
本章小结
习题
第11章配置Storm集群
11.1Storm集群框架介绍
11.1.1理解nimbus守护进程
11.1.2supervisor守护进程的工作方式
11.1.3DRPC服务工作机制
11.1.4Storm的UI简介
11.2在Linux上安装Storm
11.2.1搭建Zookeeper集群
11.2.2安装Storm依赖库
11.2.3下载并解压Storm发布版本
11.2.4修改storm.yaml配置文件
11.2.5启动Storm后台进程
11.3将topology提交到集群上
本章小结
习题
第12章Trident和TridentML
12.1Trident topology
12.1.1Trident综述
12.1.2Reach
12.1.3字段和元组
12.1.4状态
12.1.5Trident topology的执行
12.2Trident接口
12.2.1综述
12.2.2本地分区操作
12.2.3重新分区操作
12.2.4群聚操作
12.2.5流分组操作
12.2.6合并和连接
12.3Trident状态
12.3.1事务spouts
12.3.2透明事务spouts
12.3.3非事务spouts
12.3.4Spout和State总结
12.3.5State应用接口
12.3.6MapState的更新
12.3.7执行MapState
12.4TridentML: 基于storm的实时在线机器学习库
本章小结
习题
第13章DRPC模式
13.1DRPC概述
13.2DRPC自动化组件
13.3本地模式DRPC
13.4远程模式DRPC
13.5一个更复杂的例子
本章小结
习题
第14章Storm实战
14.1网站页面浏览量计算
14.1.1背景介绍
14.1.2体系结构
14.1.3项目相关介绍
14.1.4Storm编码实现
14.1.5运行topology
14.2网站用户访问量计算
14.2.1背景介绍
14.2.2Storm代码实现
14.2.3运行topology
本章小结
习题
参考文献
第1章分布式实时计算系统
1.1分布式的概念
1.1.1分布式系统
1.1.2分布式计算
1.2分布式通信
1.2.1分布式通信基础
1.2.2消息队列
1.2.3Storm计算模型
1.3分布式实时计算系统架构
1.3.1数据获取——Kafka
1.3.2数据处理——Storm
1.3.3数据存储——HBase
1.4系统架构
本章小结
习题
第2章初识Kafka
2.1什么是Kafka
2.1.1Kafka概述
2.1.2使用场景
2.1.3Kafka基本特性
2.1.4性能
2.1.5总结
2.1.6Kafka在LinkedIn中的应用
2.2Topics和logs
2.3分布式——consumers和producers
本章小结
习题
第3章Kafka环境搭建
3.1服务器搭建
3.2开发环境搭建
本章小结
习题
第4章Kafka消息传送
4.1消息传输的事务定义
4.2性能优化
4.2.1消息集
4.2.2数据压缩
4.3生产者和消费者
4.3.1Kafka生产者的消息发送
4.3.2Kafka consumer
4.4主从同步
4.5客户端API
4.5.1Kafka producer API
4.5.2Kafka consumer API
4.6消息和日志
本章小结
习题
第5章Zookeeper开发
5.1Zookeeper的来源
5.2Zookeeper基础
5.2.1基本概念
5.2.2Zookeeper架构
5.3Zookeeper的API
5.3.1建立会话
5.3.2管理权
5.3.3节点注册
5.3.4任务队列化
5.4状态变化处理
5.5故障处理
5.6Zookeeper集群管理
5.6.1集群配置
5.6.2集群管理
本章小结
习题
第6章初识HBase
6.1什么是HBase
6.1.1大数据的背景
6.1.2HBase架构
6.1.3HBase存储API
6.2HBase部署
6.2.1HBase配置及安装
6.2.2运行模式
6.2.3集群操作
本章小结
习题
第7章HBase基础操作
7.1CRUD操作
7.1.1Put操作
7.1.2Get操作
7.1.3Delete操作
7.2批处理操作
7.3行锁
7.4扫描
7.5其他操作
7.5.1HTable方法
7.5.2Bytes方法
本章小结
习题
第8章HBase高阶特性
8.1过滤器
8.1.1什么是过滤器
8.1.2比较过滤器
8.1.3专用过滤器
8.1.4附加过滤器
8.2计数器
8.2.1什么是计数器
8.2.2单计数器及多计数器
8.3协处理器
8.3.1什么是协处理器
8.3.2协处理器API应用
本章小结
习题
第9章管理HBase
9.1HBase数据描述
9.1.1表
9.1.2列簇
9.1.3属性
9.2表管理API
9.2.1基础操作
9.2.2集群管理
本章小结
习题
第10章初识Storm
10.1什么是Storm
10.1.1Storm能做什么
10.1.2Storm的特性
10.1.3Storm分布式计算结构
10.2构建topology
10.2.1Storm的基本概念
10.2.2构建topology
10.2.3示例: 单词计数
10.3Storm并发机制
10.3.1topology并发机制
10.3.2给topology增加Worker
10.3.3配置Executor和task
10.4数据流分组的理解
10.5消息的可靠处理
10.5.1消息被处理后会发生什么
10.5.2Storm可靠性的实现方法
10.5.3调整可靠性
本章小结
习题
第11章配置Storm集群
11.1Storm集群框架介绍
11.1.1理解nimbus守护进程
11.1.2supervisor守护进程的工作方式
11.1.3DRPC服务工作机制
11.1.4Storm的UI简介
11.2在Linux上安装Storm
11.2.1搭建Zookeeper集群
11.2.2安装Storm依赖库
11.2.3下载并解压Storm发布版本
11.2.4修改storm.yaml配置文件
11.2.5启动Storm后台进程
11.3将topology提交到集群上
本章小结
习题
第12章Trident和TridentML
12.1Trident topology
12.1.1Trident综述
12.1.2Reach
12.1.3字段和元组
12.1.4状态
12.1.5Trident topology的执行
12.2Trident接口
12.2.1综述
12.2.2本地分区操作
12.2.3重新分区操作
12.2.4群聚操作
12.2.5流分组操作
12.2.6合并和连接
12.3Trident状态
12.3.1事务spouts
12.3.2透明事务spouts
12.3.3非事务spouts
12.3.4Spout和State总结
12.3.5State应用接口
12.3.6MapState的更新
12.3.7执行MapState
12.4TridentML: 基于storm的实时在线机器学习库
本章小结
习题
第13章DRPC模式
13.1DRPC概述
13.2DRPC自动化组件
13.3本地模式DRPC
13.4远程模式DRPC
13.5一个更复杂的例子
本章小结
习题
第14章Storm实战
14.1网站页面浏览量计算
14.1.1背景介绍
14.1.2体系结构
14.1.3项目相关介绍
14.1.4Storm编码实现
14.1.5运行topology
14.2网站用户访问量计算
14.2.1背景介绍
14.2.2Storm代码实现
14.2.3运行topology
本章小结
习题
参考文献
猜您喜欢