应来应去 发表于 2020-12-15 13:57:08

Adsense应急事件处理-GoogleSRE运维技术

Adsense应急事件处理-GoogleSRE运维技术



可靠性是MTTF(平均失败时间)和MTTR(平均恢复时间)的函数,评价一个团队将系统恢复到正常情况的最有效指标就是MTTR.


任何需要人工操作的事情都只会延长恢复时间,一个可以自动恢复的系统,即使有更多的故障发生,也要比事事都需要人工干预的系统可靠性更高,当不可避免的需要人工介入时,我们也发现于船到桥头自然直的态度相比,通过事先预案并且将最佳方法记录在运维手册上,通常事先预案并且将最佳方法记录在运维手册(playbook)上可以便MRRT降低三倍以上,初期几个万能的工程师的确可以解决生产问题。但是长久看来,一个手持运维宝典经过多次演习的on-call工程师才是正确之路多么完备的。运维手册也无法替代人的创新思维,但是在巨大的时间压力和产品压力下,运维手册中记录的清晰调试步骤和分析方法,对处理问题的人是不可或缺的,因此谷歌SRE将大部分工作重心放在运维手册的维护上,同时通过wheel of misfortune等项目,不断培训团队成员.

追上前面的 发表于 2021-3-9 19:25:27

运维属于超大公司设立的部门,要求有很强大的功底.

更强 发表于 2021-3-28 18:43:27

留下脚印,恶补:lol
页: [1]
查看完整版本: Adsense应急事件处理-GoogleSRE运维技术