书籍详情
Splunk大数据分析
作者:(美)Peter Zadrozny ,Raghu Kodali 著
出版社:机械工业出版社
出版时间:2014-05-01
ISBN:9787111464297
定价:¥69.00
购买这本书可以去
内容简介
绝大多数物理现象、人类活动都会记录在各种媒介中,而随着数字化的普及,这一切又都将转化为数据,人类正在从“卷宗”社会走向“数字”社会。尤其是近年来伴随着智能终端、移动互联网以及物联网等信息技术的发展,数字社会中的数据无论是在类型还是规模方面都在飞速发展,大数据以一种迅疾的速度渗透到我们生活、工作的各个领域。据统计,目前全球被创建和复制的数据总量已超过2ZB(1021B),远远超过人类有史以来所有印刷材料的数据总量(约200PB)。想要从庞大的数据库中提取有用的信息或知识,就离不开大数据分析技术和工具。有观点认为,对于已经颠覆或将要颠覆传统行业的应用(如电子商务、互联网金融、物联网),其核心竞争力之一就是大规模的数据分析能力,也就是我们说的大数据能力。相比传统数据,大数据具有规模大、类型广、时效高等特点,存储和处理这些数据必须引入新的技术和机制。Splunk是一种典型的大数据处理工具,能够非常高效地按时序对数据进行存储、索引、访问,已广泛应用在多个领域。为此,本书全面系统地介绍了大数据挖掘工具Splunk,从数据导入、访问、挖掘等角度系统介绍Splunk的原理和使用方式,以帮助读者快速掌握Splunk。在过去几个月中,黄琰、凡蕙铭、韩超、赖旦冉、何君、蓝贤赟参与了部分翻译,傅桔选、沈书毅、叶玮成担任了部分校审工作,在此感谢他们认真的态度和极大的耐心。当然,本书的翻译工作得以顺利完成,还要感谢机械工业出版社的编辑以及其他所有工作人员在各方面的支持和帮助。最后,对给予我们无私帮助的那些人致以诚挚的谢意。译者水平有限,书中疏漏在所难免,敬请读者批评指正。
作者简介
作者:(美国)扎德罗津尼(Peter Zadrozny) (美国)Raghu Kodali 译者:唐宏 陈健 Peter Zadrozny,资深软件技术专家,OpalliosS公司创始人兼首席技术官,专注于利用大数据和云技术为客户提供有价值产品。Peter还是圣荷西州立大学大数据相关课程的讲师。他曾先后在多家大中型公司担任行政和技术职务,并主导在欧洲开启webLogic和在墨西哥启动sun微操作系统。他在J2EE和性能工程领域有多部非常成功的著作,并且是流行开源项目Grinder的最初贡献者。
目录
译者序
致谢
第1章 大数据和Splunk / 1
1.1 什么是大数据 / 1
1.2 非传统的数据处理技术 / 5
1.3 Splunk是什么 / 6
1.4 关于本书 / 7
第2章 将数据导入Splunk / 9
2.1 数据的多样性 / 9
2.2 Splunk如何处理多样化的数据 / 10
2.2.1 文件和目录 / 11
2.2.2 数据生成器 / 16
2.2.3 生成样本数据 / 17
2.2.4 网络资源 / 21
2.2.5 Windows数据 / 21
2.2.6 其他资源 / 21
2.3 应用程序和附加组件 / 21
2.4 转发器 / 26
2.5 小结 / 27
第3章 处理和分析数据 / 28
3.1 了解组合访问日志数据 / 28
3.2 搜索和分析索引数据 / 29
3.3 报表 / 35
3.3.1 使用最多的浏览器 / 35
3.3.2 排名前五的IP地址 / 37
3.3.3 浏览量来源最多的网站 / 38
3.3.4 有多少404事件 / 40
3.3.5 有多少事件包含购买行为 / 42
3.3.6 列出购买的商品 / 42
3.4 排序 / 44
3.5 过滤 / 45
3.6 添加和评估字段 / 47
3.7 聚合 / 48
3.8 小结 / 54
第4章 结果的可视化 / 55
4.1 数据可视化 / 55
4.2 Splunk是怎样处理可视化的 / 55
4.3 chart / 60
4.3.1 制作每一个主机的GET和POST事件数量的图表 / 61
4.3.2 制作每一个产品类别的购买数和浏览数的图表 / 62
4.3.3 哪个产品种类受HTTP 404错误的影响 / 63
4.3.4 MyGizmoStore.com的购买趋势 / 64
4.3.5 事务持续时间 / 66
4.4 timechart / 67
4.4.1 最高购买数量的产品 / 67
4.4.2 页面浏览率和购买量 / 68
4.5 使用Google Maps应用程序来可视化 / 69
4.6 Globe / 71
4.7 仪表盘 / 72
4.8 小结 / 80
第5章 定义警报 / 81
5.1 什么是警报 / 81
5.2 Splunk如何提供警报 / 81
5.2.1 基于商品销售量的警报 / 82
5.2.2 登录失败的警报 / 84
5.2.3 日志文件中关键性错误的警报 / 87
5.3 小结 / 88
第6章 网站监测 / 90
6.1 监测网站 / 90
6.2 IT运作 / 91
6.2.1 主机访问量 / 91
6.2.2 无内部访问的主机访问量 / 91
6.2.3 HTTP请求成功的流量 / 93
6.2.4 HTTP请求未成功的流量 / 93
6.2.5 返回HTTP错误状态码最多的页面 / 94
6.3 业务 / 96
6.3.1 区域用户统计 / 96
6.3.2 跳出率 / 97
6.3.3 独立访问者数量 / 98
6.4 小结 / 103
第7章 使用日志文件创建高级分析 / 104
7.1 传统的分析方法 / 104
7.2 范式变更 / 105
7.3 语义日志 / 106
7.4 日志最佳实践 / 113
7.5 小结 / 115
第8章 航班准点率项目 / 116
小结 / 118
第9章 将航班数据导入Splunk / 119
9.1 处理CSV文件 / 119
9.1.1 航班数据 / 119
9.1.2 下载数据 / 120
9.1.3 了解航班数据 / 121
9.1.4 关于时间戳 / 123
9.1.5 将字段映射成一个时间戳 / 124
9.1.6 对所有航班数据建立索引 / 131
9.2 从关系数据库中索引数据 / 132
9.2.1 定义一个新的数据库连接 / 132
9.2.2 数据库监测 / 133
9.3 小结 / 136
第10章 分析航空公司、机场、航班和延迟 / 137
10.1 分析航空公司 / 137
10.1.1 计算航空公司的总数 / 138
10.1.2 可视化结果 / 139
10.2 分析机场 / 143
10.3 分析航班 / 146
10.4 分析延迟 / 151
10.4.1 各航空公司航班延迟情况 / 151
10.4.2 各机场航班延迟的原因 / 152
10.4.3 冬天与夏天的航班延迟情况 / 155
10.5 创建和使用宏命令 / 157
10.6 报告加速 / 158
10.7 加速统计 / 161
10.8 小结 / 166
第11章 分析一个特定航班的历年数据 / 167
11.1 航空公司名称 / 167
11.1.1 字段查找自动化 / 172
11.1.2 从搜索中创建查找表 / 173
11.2 United flight 871航班 / 174
11.3 小结 / 178
第12章 分析推文 / 179
12.1 开发样本流 / 180
12.2 将推文加载到Splunk中 / 183
12.3 Twitter / 185
12.4 最流行的单词 / 188
12.5 实时的Twitter趋势 / 191
12.6 小结 / 196
第13章 分析Foursquare签到信息 / 197
13.1 签到信息格式 / 198
13.2 时区注意事项 / 202
13.3 装载签到数据 / 203
13.4 分析签到信息 / 205
13.4.1 星期日早午餐搜索 / 205
13.4.2 Google地图和热门地点 / 209
13.4.3 地点的签到模式 / 211
13.4.4 地点的签到数量 / 212
13.4.5 分析性别活动 / 214
13.5 小结 / 217
第14章 情感分析 / 218
14.1 意见、观点、信仰、信念 / 218
14.2 商业用途 / 219
14.3 情感分析的技术性工作 / 220
14.4 情感分析应用程序 / 222
14.4.1 全局性的命令 / 223
14.4.2 挖掘情感 / 224
14.4.3 语言的处理 / 226
14.4.4 训练数据和测试数据 / 227
14.5 世界情绪指数项目 / 231
14.5.1 收集RSS摘要 / 232
14.5.2 将新闻标题索引到Splunk中 / 234
14.5.3 定义情感语料库 / 237
14.5.4 对结果进行可视化 / 240
14.6 小结 / 242
第15章 远程数据收集 / 243
15.1 转发器 / 243
15.1.1 流行的拓扑结构 / 244
15.1.2 安装转发器 / 246
15.2 部署服务器 / 248
15.2.1 配置部署服务器 / 250
15.2.2 配置转发器 / 251
15.3 部署监控 / 252
15.4 小结 / 253
第16章 可扩展性和高可用性 / 254
16.1 扩展Splunk / 254
16.2 聚类 / 259
16.3 小结 / 264
附录A Splunk的性能 / 265
附录B 有用的Splunk应用程序 / 281"
致谢
第1章 大数据和Splunk / 1
1.1 什么是大数据 / 1
1.2 非传统的数据处理技术 / 5
1.3 Splunk是什么 / 6
1.4 关于本书 / 7
第2章 将数据导入Splunk / 9
2.1 数据的多样性 / 9
2.2 Splunk如何处理多样化的数据 / 10
2.2.1 文件和目录 / 11
2.2.2 数据生成器 / 16
2.2.3 生成样本数据 / 17
2.2.4 网络资源 / 21
2.2.5 Windows数据 / 21
2.2.6 其他资源 / 21
2.3 应用程序和附加组件 / 21
2.4 转发器 / 26
2.5 小结 / 27
第3章 处理和分析数据 / 28
3.1 了解组合访问日志数据 / 28
3.2 搜索和分析索引数据 / 29
3.3 报表 / 35
3.3.1 使用最多的浏览器 / 35
3.3.2 排名前五的IP地址 / 37
3.3.3 浏览量来源最多的网站 / 38
3.3.4 有多少404事件 / 40
3.3.5 有多少事件包含购买行为 / 42
3.3.6 列出购买的商品 / 42
3.4 排序 / 44
3.5 过滤 / 45
3.6 添加和评估字段 / 47
3.7 聚合 / 48
3.8 小结 / 54
第4章 结果的可视化 / 55
4.1 数据可视化 / 55
4.2 Splunk是怎样处理可视化的 / 55
4.3 chart / 60
4.3.1 制作每一个主机的GET和POST事件数量的图表 / 61
4.3.2 制作每一个产品类别的购买数和浏览数的图表 / 62
4.3.3 哪个产品种类受HTTP 404错误的影响 / 63
4.3.4 MyGizmoStore.com的购买趋势 / 64
4.3.5 事务持续时间 / 66
4.4 timechart / 67
4.4.1 最高购买数量的产品 / 67
4.4.2 页面浏览率和购买量 / 68
4.5 使用Google Maps应用程序来可视化 / 69
4.6 Globe / 71
4.7 仪表盘 / 72
4.8 小结 / 80
第5章 定义警报 / 81
5.1 什么是警报 / 81
5.2 Splunk如何提供警报 / 81
5.2.1 基于商品销售量的警报 / 82
5.2.2 登录失败的警报 / 84
5.2.3 日志文件中关键性错误的警报 / 87
5.3 小结 / 88
第6章 网站监测 / 90
6.1 监测网站 / 90
6.2 IT运作 / 91
6.2.1 主机访问量 / 91
6.2.2 无内部访问的主机访问量 / 91
6.2.3 HTTP请求成功的流量 / 93
6.2.4 HTTP请求未成功的流量 / 93
6.2.5 返回HTTP错误状态码最多的页面 / 94
6.3 业务 / 96
6.3.1 区域用户统计 / 96
6.3.2 跳出率 / 97
6.3.3 独立访问者数量 / 98
6.4 小结 / 103
第7章 使用日志文件创建高级分析 / 104
7.1 传统的分析方法 / 104
7.2 范式变更 / 105
7.3 语义日志 / 106
7.4 日志最佳实践 / 113
7.5 小结 / 115
第8章 航班准点率项目 / 116
小结 / 118
第9章 将航班数据导入Splunk / 119
9.1 处理CSV文件 / 119
9.1.1 航班数据 / 119
9.1.2 下载数据 / 120
9.1.3 了解航班数据 / 121
9.1.4 关于时间戳 / 123
9.1.5 将字段映射成一个时间戳 / 124
9.1.6 对所有航班数据建立索引 / 131
9.2 从关系数据库中索引数据 / 132
9.2.1 定义一个新的数据库连接 / 132
9.2.2 数据库监测 / 133
9.3 小结 / 136
第10章 分析航空公司、机场、航班和延迟 / 137
10.1 分析航空公司 / 137
10.1.1 计算航空公司的总数 / 138
10.1.2 可视化结果 / 139
10.2 分析机场 / 143
10.3 分析航班 / 146
10.4 分析延迟 / 151
10.4.1 各航空公司航班延迟情况 / 151
10.4.2 各机场航班延迟的原因 / 152
10.4.3 冬天与夏天的航班延迟情况 / 155
10.5 创建和使用宏命令 / 157
10.6 报告加速 / 158
10.7 加速统计 / 161
10.8 小结 / 166
第11章 分析一个特定航班的历年数据 / 167
11.1 航空公司名称 / 167
11.1.1 字段查找自动化 / 172
11.1.2 从搜索中创建查找表 / 173
11.2 United flight 871航班 / 174
11.3 小结 / 178
第12章 分析推文 / 179
12.1 开发样本流 / 180
12.2 将推文加载到Splunk中 / 183
12.3 Twitter / 185
12.4 最流行的单词 / 188
12.5 实时的Twitter趋势 / 191
12.6 小结 / 196
第13章 分析Foursquare签到信息 / 197
13.1 签到信息格式 / 198
13.2 时区注意事项 / 202
13.3 装载签到数据 / 203
13.4 分析签到信息 / 205
13.4.1 星期日早午餐搜索 / 205
13.4.2 Google地图和热门地点 / 209
13.4.3 地点的签到模式 / 211
13.4.4 地点的签到数量 / 212
13.4.5 分析性别活动 / 214
13.5 小结 / 217
第14章 情感分析 / 218
14.1 意见、观点、信仰、信念 / 218
14.2 商业用途 / 219
14.3 情感分析的技术性工作 / 220
14.4 情感分析应用程序 / 222
14.4.1 全局性的命令 / 223
14.4.2 挖掘情感 / 224
14.4.3 语言的处理 / 226
14.4.4 训练数据和测试数据 / 227
14.5 世界情绪指数项目 / 231
14.5.1 收集RSS摘要 / 232
14.5.2 将新闻标题索引到Splunk中 / 234
14.5.3 定义情感语料库 / 237
14.5.4 对结果进行可视化 / 240
14.6 小结 / 242
第15章 远程数据收集 / 243
15.1 转发器 / 243
15.1.1 流行的拓扑结构 / 244
15.1.2 安装转发器 / 246
15.2 部署服务器 / 248
15.2.1 配置部署服务器 / 250
15.2.2 配置转发器 / 251
15.3 部署监控 / 252
15.4 小结 / 253
第16章 可扩展性和高可用性 / 254
16.1 扩展Splunk / 254
16.2 聚类 / 259
16.3 小结 / 264
附录A Splunk的性能 / 265
附录B 有用的Splunk应用程序 / 281"
猜您喜欢