书籍详情

SRE生存指南:系统中断响应与正常运行时间最大化

SRE生存指南:系统中断响应与正常运行时间最大化

作者:冯文辉

出版社:电子工业出版社

出版时间:2019-09-01

ISBN:9787121371769

定价:¥79.00

购买这本书可以去
内容简介
  站点可靠性工程(Site Reliability Engineering,简称SRE)是一个令人兴奋的新兴领域,它专注于如何确保系统稳定、可靠地运行。本书基于一个金字塔层次结构模型,深入浅出地介绍了关于SRE的方方面面,涉及监控、事故响应与回顾、测试与发布、容量规划、开发、用户体验设计,以及贯穿其中的沟通技巧。 \n本书是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料;软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。
作者简介
  Nat Welch是一名美国的软件开发人员。自2005年以来,他一直做着构建网站并保持其运行的工作。他曾先后是谷歌、HFA等各大平台的网站可靠性工程师。多年来,他一直致力于提高网站的可靠性以帮助开发人员构建可靠的系统。冯文辉,现任ThoughtWorks中国区资深架构咨询师,具有11年的软件行业经验,曾服务于多个世界500强企业,覆盖银行、保险、通信、汽车、物流等行业。为客户提供敏捷开发、DevOps、架构设计与数字化转型等咨询服务。热衷于探索更好的架构设计方法,助力企业的数字化转型。
目录

1  简介  1

\n

SRE简史  2

\n

SRE是什么  3

\n

关于这本书  7

\n

以SRE作为新项目的框架  9

\n

小结  12

\n


\n

2  监控  13

\n

为什么要监控  13

\n

检测应用程序  16

\n

度量什么  23

\n

SLI、SLO和错误预算简介  26

\n

错误预算  27

\n

收集和保存监控数据  29

\n

轮询应用程序  29

\n

推送应用程序  32

\n

展示监控信息  35

\n

任意查询  35

\n

图表  36

\n

仪表板  37

\n

聊天机器人  38

\n

管理和维护监控数据  38

\n

沟通  39

\n

他们知道有监控吗  39

\n

小结  40

\n

参考资料  40

\n


\n

3  事故响应  42

\n

什么是事故  43

\n

什么是事故响应  45

\n

警报  47

\n

什么时候发起警报  48

\n

怎么发出警报  49

\n

向谁发出警报  54

\n

随时待命  55

\n

沟通  57

\n

事故指挥系统  59

\n

在哪里沟通  61

\n

恢复系统  61

\n

警报解除  63

\n

小结  64

\n


\n

4  事后回顾  65

\n

什么是事后回顾  65

\n

为什么写事后回顾报告  66

\n

何时写事后回顾报告  68

\n

开展事故分析  69

\n

如何写事后回顾报告  71

\n

总结  71

\n

影响  72

\n

时间  73

\n

根本原因  74

\n

行动项  75

\n

附录  77

\n

停止事后指责  77

\n

举行事后回顾会议  79

\n

分析以往的事后回顾报告  80

\n

MTTR与MTBF  81

\n

警报疲劳  81

\n

讨论过去的服务中断  81

\n

小结  82

\n

参考资料  82

\n


\n

5  测试和发布  83

\n

测试  84

\n

测试内容  87

\n

发布  100

\n

何时发布  101

\n

回滚  104

\n

自动化  104

\n

持续  105

\n

小结  106

\n


\n

6  容量规划  107

\n

企业财务简介  108

\n

为什么需要规划  110

\n

风险管理与期望管理  111

\n

定义一个规划  112

\n

当前的容量是多少  113

\n

何时达到容量极限  115

\n

应该如何更改容量  119

\n

执行规划  125

\n

架构——性能变化的根源  126

\n

技术作为利润中心和采购  128

\n

小结  128

\n


\n

7  构建工具  129

\n

寻找项目  131

\n

定义项目  133

\n

RDD  133

\n

设计文档  136

\n

项目计划  138

\n

例子  139

\n

回顾会与站会  141

\n

工作分配  142

\n

构建项目  143

\n

关于编写代码的建议  143

\n

关注点分离  144

\n

长期工作  145

\n

笔记本  148

\n

文档与维护项目  149

\n

小结  150

\n


\n

8  用户体验  151

\n

设计和用户体验简介  155

\n

现实世界的交互设计  157

\n

用户测试  160

\n

挑选一种体验  161

\n

设计测试  162

\n

寻找要测试的人  162

\n

开发者体验  163

\n

工具经验  164

\n

绩效预算  164

\n

安全性  166

\n

身份认证  167

\n

授权  168

\n

风险概况  168

\n

网络钓鱼  169

\n

ACM道德准则  170

\n

小结  171

\n

参考资料  172

\n


\n

9  网络基础  173

\n

互联网  173

\n

发送一个HTTP请求  175

\n

DNS  175

\n

以太网和TCP/IP  179

\n

HTTP  186

\n

curl与wget  189

\n

网络监控工具  194

\n

netstat  194

\n

nc  195

\n

tcpdump  196

\n

小结  197

\n

参考资料  197

\n


\n

10  Linux和云基础  198

\n

Linux基础  198

\n

一切皆是文件  199

\n

进程是什么  206

\n

syscalls  207

\n

构建自己的工具  213

\n

云基础  214

\n

虚拟机  215

\n

容器  216

\n

负载均衡  218

\n

自动伸缩  219

\n

存储  219

\n

队列与发布/订阅  220

\n

伸缩单元  221

\n

架构面试示例  222

\n

小结  226

\n

参考资料  226

猜您喜欢

读书导航