书籍详情
监控平台解密:IT系统风险感知和洞察
作者:姜才康 等 著
出版社:电子工业出版社
出版时间:2022-05-01
ISBN:9787121433771
定价:¥102.00
购买这本书可以去
内容简介
本书采用循序渐进的讲解方式,介绍了如何从零开始构建一个企业级监控平台的相关理论技术和实践方法。首先从监控系统总体设计原理出发,逐步介绍企业级监控系统的常用架构、各个组件模块作用、运行模式、监控体系的建设路线、监控信息的合并算法、监控颗粒度设置经验以及如何保障监控系统自身可靠性等内容;随后自底向上依次对硬件设备、操作系统、虚拟机、常用数据库和中间件、容器和容器编排、系统和应用日志以及应用链路等常见监控领域实施监控的技术原理、常用监控指标以及实现方式等内容作了介绍;最后对监控系统下阶段发展趋势也即智能监控作涉及相关技术原理及常用智能监控功能作了展望及介绍。通过对本书的系统学习,可以对计算机监控系统的基本原理、设计思想、实现方式等方面有全面而深入的了解。
作者简介
姜才康,现任中汇信息技术(上海)有限公司总经理,中国计算机用户协会金融信息分会理事,上海计算机学会理事,上海信息化理事。在金融信息化建设方面贡献突出,长期从事金融行业应用软件设计开发、技术标准制定和技术管理工作,不断夯实***金融基础设施,构建全方位的银行间市场风险治理和安全运维体系,先后获得数十项银行发展科技奖。主持开发了完**一代外汇交易系统、新一代本币交易系统、汇率中间价系统、上海同业拆放利率(Shibor)、基于双边授信撮合系统、报价引擎、数据发布、交易后系统、增值服务系统、汇率指数、定盘收益率曲线等数十个金融系统的开发建设任务。主要著作有《大数据系统运维》(2018),《数据挖掘基础》(2018),另有《外汇交易中心集中统一监控平台建设实践》、《银行间市场金融标准化建设的实践之道》、《中国货币网的建设及发展》等多篇论文发表。
目录
第1章 监控系统规划及原理\t1
1.1 IT监控运维管理的发展历程\t1
1.1.1 新兴的中国市场(1985―1994年)\t2
1.1.2 运营商大建设期(1995―2000年)\t2
1.1.3 多元化的监控运维系统(2001―2010年)\t4
1.1.4 面向云和应用(2010年至今)\t5
1.2 监控体系总体规划\t5
1.2.1 IT运营体系的阶段性\t5
1.2.2 监控体系建设的阶段性\t7
1.3 监控系统的分类\t12
1.4 监控系统工作原理\t13
1.5 监控系统运行模式分类\t16
1.5.1 主动/被动监控\t16
1.5.2 有代理/无代理\t18
1.6 监控事件总线\t19
1.6.1 什么是集中监控事件总线\t19
1.6.2 事件总线的市场格局\t20
1.6.3 监控事件总线的功能设计\t22
本章小结\t25
第2章 计算机硬件设备监控\t26
2.1 计算机的分类\t26
2.2 数据中心常见的计算机种类\t27
2.2.1 大型机\t27
2.2.2 小型机、PC服务器\t28
2.2.3 RISC、CISC\t30
2.2.4 刀片机\t31
2.3 计算机硬件设备监控\t31
2.3.1 大型机设备监控\t32
2.3.2 小型机设备监控\t33
2.3.3 PC Server设备监控\t41
2.3.4 刀片机设备监控\t46
本章小结\t47
第3章 虚拟机监控\t48
3.1 虚拟化分类\t48
3.1.1 硬件虚拟化\t49
3.1.2 桌面虚拟化\t49
3.1.3 应用程序虚拟化\t49
3.1.4 网络虚拟化\t49
3.2 ESXi虚拟化监控\t50
3.2.1 ESXi虚拟化概述\t50
3.2.2 ESXi架构图及监控入口\t53
3.2.3 使用Zabbix监控ESXi\t53
3.3 KVM虚拟化监控\t60
3.3.1 KVM虚拟化概述\t60
3.3.2 使用Zabbix监控KVM\t61
本章小结\t63
第4章 操作系统监控\t64
4.1 操作系统的种类\t64
4.1.1 类UNIX系统\t64
4.1.2 Windows系统\t65
4.2 操作系统功能模块\t66
4.3 CPU监控\t69
4.3.1 CPU相关概念\t69
4.3.2 CPU状态\t70
4.4 内存监控\t72
4.4.1 内存相关概念\t72
4.4.2 内存状态\t74
4.5 进程监控\t74
4.5.1 进程相关概念\t74
4.5.2 进程状态监控\t76
4.6 文件属性监控\t78
4.6.1 Windows中的文件属性\t78
4.6.2 类UNIX中的文件属性\t78
4.7 文件系统监控\t83
4.7.1 文件系统概念\t83
4.7.2 文件系统状态\t84
4.8 网络模块监控\t85
4.8.1 网络流量监控\t85
4.9 监控系统如何监控操作系统\t87
4.9.1 Windows\t87
4.9.2 Linux\t90
本章小结\t92
第5章 数据库监控\t93
5.1 数据库分类\t93
5.1.1 关系型数据库\t94
5.1.2 非关系型数据库\t94
5.2 数据库状态指标分类\t94
5.3 当前连接数与最大允许连接数\t95
5.3.1 连接数的相关概念\t95
5.3.2 连接数指标实例\t95
5.4 QPS/TPS\t99
5.4.1 QPS/TPS的相关概念\t99
5.4.2 QPS/TPS指标实例\t99
5.5 慢查询\t102
5.5.1 慢查询的相关概念\t102
5.5.2 慢查询指标实例\t102
5.6 磁盘I/O监控\t108
5.6.1 磁盘I/O相关概念\t108
5.6.2 磁盘I/O的获取\t108
5.7 其他针对性指标\t110
5.7.1 Mysql Binlog cache的相关概念\t110
5.7.2 Mysql Binlog cache指标实例\t111
5.7.3 Oracle表空间的概念\t112
5.7.4 Oracle表空间指标实例\t112
5.7.5 Mysql MHA高可用集群的概念\t113
5.7.6 Mysql MHA高可用集群指标\t115
5.7.7 Oracle集群的概念\t117
5.7.8 Oracle集群指标实例\t118
本章小结\t126
第6章 中间件监控\t127
6.1 Nginx监控\t128
6.1.1 Nginx概述\t128
6.1.2 Nginx服务的进程及端口\t128
6.1.3 服务可用性监控\t130
6.1.4 Nginx日志监控\t131
6.1.5 Nginx状态页监控\t134
6.2 Tomcat监控\t136
6.2.1 Tomcat概述\t136
6.2.2 请求吞吐量指标和延迟指标\t137
6.2.3 线程池指标\t140
6.2.4 Errors错误率指标\t144
6.2.5 JVM内存使用情况指标\t146
6.2.6 JVM监控工具\t149
6.3 ActiveMQ监控\t152
6.3.1 ActiveMQ概述\t152
6.3.2 生产者数量监控\t152
6.3.3 消费者数量监控\t153
6.3.4 队列深度监控\t154
6.3.5 ActiveMQ监控实践\t155
本章小结\t157
第7章 Docker容器监控\t159
7.1 Docker容器运行状态\t159
7.2 Docker容器性能指标\t161
7.3 cAdvisor对容器监控\t162
7.3.1 CPU的监控\t164
7.3.2 内存的监控\t165
7.3.3 磁盘的监控\t165
7.3.4 网络的监控\t165
7.4 Docker容器内的应用日志监控\t166
本章小结\t170
第8章 Kubernetes监控\t171
8.1 Kubernetes简介\t171
8.2 Prometheus简介\t174
8.3 Prometheus部署\t176
8.4 Kubernetes集群监控\t186
8.4.1 宿主机监控\t187
8.4.2 容器监控\t196
8.4.3 集群资源监控\t199
8.4.4 API Server监控\t207
8.4.5 应用系统监控\t209
本章小结\t214
第9章 应用监控\t215
9.1 应用性能管理概述\t215
9.2 调用链路跟踪\t217
9.2.1 Span的概念\t218
9.2.2 Trace的概念\t220
9.3 APM系统的设计与实现\t222
9.3.1 APM系统通用架构\t222
9.3.2 Span的创建及SpanContext的传递逻辑\t223
9.3.3 TraceID和SpanID的生成方法\t225
9.3.4 代码注入方法\t227
9.3.5 APM系统性能优化\t228
本章小结\t231
第10章 日志监控\t232
10.1 日志的基本概念\t232
10.2 日志的作用\t233
10.2.1 运维监控\t233
10.2.2 资源管理\t233
10.2.3 入侵检测\t234
10.2.4 取证和审计\t234
10.2.5 挖掘分析\t235
10.3 常见日志类型及格式\t235
10.3.1 W3C Extended Log File格式\t236
10.3.2 Apache access log\t237
10.3.3 Syslog\t237
10.4 日志规范\t239
10.4.1 应用日志打印规范\t240
10.4.2 日志的轮转归档\t241
10.4.3 日志的爆发抑制\t242
10.5 日志监控基本原理\t243
10.5.1 前置式日志监控\t243
10.5.2 集中式日志监控\t244
10.5.3 日志监控的基本过程\t245
10.6 日志监控的常见场景\t246
10.6.1 关键字监控\t246
10.6.2 多节点日志监控\t247
10.6.3 应用系统性能监控\t248
10.6.4 应用系统业务量异常监控\t250
10.6.5 安全监控与异常IP自动封禁\t250
10.7 日志采集与传输\t251
10.7.1 拉式采集(PULL)\t252
10.7.2 推式采集(PUSH)\t252
10.7.3 日志过滤\t253
10.8 日志解析与日志监控策略\t254
10.8.1 日志解析工具\t254
10.8.2 正则表达式\t258
10.8.3 日志监控策略\t261
10.9 常见日志监控系统\t262
10.9.1 基于ELK的日志监控\t262
10.9.2 基于Splunk的日志监控\t263
本章小结\t265
第11章 智能监控\t266
11.1 智能监控概述\t267
11.1.1 Gartner AIOps\t267
11.1.2 NoOps\t267
11.1.3 智能监控实施路径\t268
11.2 监控数据治理\t269
11.2.1 大数据平台选型\t269
11.2.2 大数据平台设计\t270
11.2.3 监控运维数据治理\t271
11.3 监控动态基线\t273
11.3.1 动态阈值设计与计算\t274
11.3.2 基于动态阈值异常检测\t276
11.3.3 监控动态阈值案例\t276
11.4 监控自愈\t278
11.4.1 什么是自愈\t278
11.4.2 自愈的优势\t283
11.4.3 监控自愈模块设计\t284
11.4.4 监控自愈案例分享\t285
本章小结\t286
参考文献\t287
1.1 IT监控运维管理的发展历程\t1
1.1.1 新兴的中国市场(1985―1994年)\t2
1.1.2 运营商大建设期(1995―2000年)\t2
1.1.3 多元化的监控运维系统(2001―2010年)\t4
1.1.4 面向云和应用(2010年至今)\t5
1.2 监控体系总体规划\t5
1.2.1 IT运营体系的阶段性\t5
1.2.2 监控体系建设的阶段性\t7
1.3 监控系统的分类\t12
1.4 监控系统工作原理\t13
1.5 监控系统运行模式分类\t16
1.5.1 主动/被动监控\t16
1.5.2 有代理/无代理\t18
1.6 监控事件总线\t19
1.6.1 什么是集中监控事件总线\t19
1.6.2 事件总线的市场格局\t20
1.6.3 监控事件总线的功能设计\t22
本章小结\t25
第2章 计算机硬件设备监控\t26
2.1 计算机的分类\t26
2.2 数据中心常见的计算机种类\t27
2.2.1 大型机\t27
2.2.2 小型机、PC服务器\t28
2.2.3 RISC、CISC\t30
2.2.4 刀片机\t31
2.3 计算机硬件设备监控\t31
2.3.1 大型机设备监控\t32
2.3.2 小型机设备监控\t33
2.3.3 PC Server设备监控\t41
2.3.4 刀片机设备监控\t46
本章小结\t47
第3章 虚拟机监控\t48
3.1 虚拟化分类\t48
3.1.1 硬件虚拟化\t49
3.1.2 桌面虚拟化\t49
3.1.3 应用程序虚拟化\t49
3.1.4 网络虚拟化\t49
3.2 ESXi虚拟化监控\t50
3.2.1 ESXi虚拟化概述\t50
3.2.2 ESXi架构图及监控入口\t53
3.2.3 使用Zabbix监控ESXi\t53
3.3 KVM虚拟化监控\t60
3.3.1 KVM虚拟化概述\t60
3.3.2 使用Zabbix监控KVM\t61
本章小结\t63
第4章 操作系统监控\t64
4.1 操作系统的种类\t64
4.1.1 类UNIX系统\t64
4.1.2 Windows系统\t65
4.2 操作系统功能模块\t66
4.3 CPU监控\t69
4.3.1 CPU相关概念\t69
4.3.2 CPU状态\t70
4.4 内存监控\t72
4.4.1 内存相关概念\t72
4.4.2 内存状态\t74
4.5 进程监控\t74
4.5.1 进程相关概念\t74
4.5.2 进程状态监控\t76
4.6 文件属性监控\t78
4.6.1 Windows中的文件属性\t78
4.6.2 类UNIX中的文件属性\t78
4.7 文件系统监控\t83
4.7.1 文件系统概念\t83
4.7.2 文件系统状态\t84
4.8 网络模块监控\t85
4.8.1 网络流量监控\t85
4.9 监控系统如何监控操作系统\t87
4.9.1 Windows\t87
4.9.2 Linux\t90
本章小结\t92
第5章 数据库监控\t93
5.1 数据库分类\t93
5.1.1 关系型数据库\t94
5.1.2 非关系型数据库\t94
5.2 数据库状态指标分类\t94
5.3 当前连接数与最大允许连接数\t95
5.3.1 连接数的相关概念\t95
5.3.2 连接数指标实例\t95
5.4 QPS/TPS\t99
5.4.1 QPS/TPS的相关概念\t99
5.4.2 QPS/TPS指标实例\t99
5.5 慢查询\t102
5.5.1 慢查询的相关概念\t102
5.5.2 慢查询指标实例\t102
5.6 磁盘I/O监控\t108
5.6.1 磁盘I/O相关概念\t108
5.6.2 磁盘I/O的获取\t108
5.7 其他针对性指标\t110
5.7.1 Mysql Binlog cache的相关概念\t110
5.7.2 Mysql Binlog cache指标实例\t111
5.7.3 Oracle表空间的概念\t112
5.7.4 Oracle表空间指标实例\t112
5.7.5 Mysql MHA高可用集群的概念\t113
5.7.6 Mysql MHA高可用集群指标\t115
5.7.7 Oracle集群的概念\t117
5.7.8 Oracle集群指标实例\t118
本章小结\t126
第6章 中间件监控\t127
6.1 Nginx监控\t128
6.1.1 Nginx概述\t128
6.1.2 Nginx服务的进程及端口\t128
6.1.3 服务可用性监控\t130
6.1.4 Nginx日志监控\t131
6.1.5 Nginx状态页监控\t134
6.2 Tomcat监控\t136
6.2.1 Tomcat概述\t136
6.2.2 请求吞吐量指标和延迟指标\t137
6.2.3 线程池指标\t140
6.2.4 Errors错误率指标\t144
6.2.5 JVM内存使用情况指标\t146
6.2.6 JVM监控工具\t149
6.3 ActiveMQ监控\t152
6.3.1 ActiveMQ概述\t152
6.3.2 生产者数量监控\t152
6.3.3 消费者数量监控\t153
6.3.4 队列深度监控\t154
6.3.5 ActiveMQ监控实践\t155
本章小结\t157
第7章 Docker容器监控\t159
7.1 Docker容器运行状态\t159
7.2 Docker容器性能指标\t161
7.3 cAdvisor对容器监控\t162
7.3.1 CPU的监控\t164
7.3.2 内存的监控\t165
7.3.3 磁盘的监控\t165
7.3.4 网络的监控\t165
7.4 Docker容器内的应用日志监控\t166
本章小结\t170
第8章 Kubernetes监控\t171
8.1 Kubernetes简介\t171
8.2 Prometheus简介\t174
8.3 Prometheus部署\t176
8.4 Kubernetes集群监控\t186
8.4.1 宿主机监控\t187
8.4.2 容器监控\t196
8.4.3 集群资源监控\t199
8.4.4 API Server监控\t207
8.4.5 应用系统监控\t209
本章小结\t214
第9章 应用监控\t215
9.1 应用性能管理概述\t215
9.2 调用链路跟踪\t217
9.2.1 Span的概念\t218
9.2.2 Trace的概念\t220
9.3 APM系统的设计与实现\t222
9.3.1 APM系统通用架构\t222
9.3.2 Span的创建及SpanContext的传递逻辑\t223
9.3.3 TraceID和SpanID的生成方法\t225
9.3.4 代码注入方法\t227
9.3.5 APM系统性能优化\t228
本章小结\t231
第10章 日志监控\t232
10.1 日志的基本概念\t232
10.2 日志的作用\t233
10.2.1 运维监控\t233
10.2.2 资源管理\t233
10.2.3 入侵检测\t234
10.2.4 取证和审计\t234
10.2.5 挖掘分析\t235
10.3 常见日志类型及格式\t235
10.3.1 W3C Extended Log File格式\t236
10.3.2 Apache access log\t237
10.3.3 Syslog\t237
10.4 日志规范\t239
10.4.1 应用日志打印规范\t240
10.4.2 日志的轮转归档\t241
10.4.3 日志的爆发抑制\t242
10.5 日志监控基本原理\t243
10.5.1 前置式日志监控\t243
10.5.2 集中式日志监控\t244
10.5.3 日志监控的基本过程\t245
10.6 日志监控的常见场景\t246
10.6.1 关键字监控\t246
10.6.2 多节点日志监控\t247
10.6.3 应用系统性能监控\t248
10.6.4 应用系统业务量异常监控\t250
10.6.5 安全监控与异常IP自动封禁\t250
10.7 日志采集与传输\t251
10.7.1 拉式采集(PULL)\t252
10.7.2 推式采集(PUSH)\t252
10.7.3 日志过滤\t253
10.8 日志解析与日志监控策略\t254
10.8.1 日志解析工具\t254
10.8.2 正则表达式\t258
10.8.3 日志监控策略\t261
10.9 常见日志监控系统\t262
10.9.1 基于ELK的日志监控\t262
10.9.2 基于Splunk的日志监控\t263
本章小结\t265
第11章 智能监控\t266
11.1 智能监控概述\t267
11.1.1 Gartner AIOps\t267
11.1.2 NoOps\t267
11.1.3 智能监控实施路径\t268
11.2 监控数据治理\t269
11.2.1 大数据平台选型\t269
11.2.2 大数据平台设计\t270
11.2.3 监控运维数据治理\t271
11.3 监控动态基线\t273
11.3.1 动态阈值设计与计算\t274
11.3.2 基于动态阈值异常检测\t276
11.3.3 监控动态阈值案例\t276
11.4 监控自愈\t278
11.4.1 什么是自愈\t278
11.4.2 自愈的优势\t283
11.4.3 监控自愈模块设计\t284
11.4.4 监控自愈案例分享\t285
本章小结\t286
参考文献\t287
猜您喜欢