应来应去 发表于 2020-12-4 11:33:16

Google的监控系统运行机制

Google的监控系统运行机制
监控系统是SRE团队监控服务质量和可用性的一个重要主要手段,所以监控系统的设计策略值得着重讨论,最普遍的和传统的报警策略是针对某个特定的情况或者监控纸一旦出现情况获得监控值,超过阀值就触发警报,但是这样的报警策略并不是非常有效一个,需要人工阅读邮件和分析警报来决定目前是否需要采取某种行动的系统,从本质上来说就是错误的监控系统应该。依赖人来分析警报信息,而是应该由系统自动分析警报需要用户执行某种操作时才需要通知用户。


一个监控系统一般有三类输出:
第一:紧急报警alert,意味着收到警报的用户需要立即执行某种操作目标,是解决某种已经发生了的问题或者是避免即将要发生的问题。比如某一个Adsense系统内的一个账户触发了严重的错误(较为低级的作弊行为),这样系统会自动对此账户做出裁决,停止账户的一切活动或等待二次审核。


第二,工单TICKET意味着接受工单的用户应该执行某种操作,但是并非立即执行系统并不能自动解决目前的情况,但是如果一个用户在几天内执行这项操作系统,不会受到任何影响。工单一般可以理解为Adsense账户违规后需要工程师二次审核详细的违规行为。


第三:日志logging平时,没有人需要关注日志信息,但是日志信息依然被收集起来,已被调试和事后分析时候使用,正确的做法是平时没有人会去主动阅读日志,除非有特殊需要。


监控系统的阀值计算相当的庞大复杂,比如Adsense部门的计算方式,主要是针对违规行为的常态值进行设值。

zooms 发表于 2020-12-4 15:05:59

意思工单处理的话就纯人工审核了呗

真情流露 发表于 2020-12-4 15:18:27

监控系统的阀值计算相当的庞大复杂,给点提示吧,只是听好几百个权重计算,核心的算法有吗?

perterli 发表于 2020-12-15 12:07:43

二楼想的核心算法也就是google创始人才有权知道:lol
页: [1]
查看完整版本: Google的监控系统运行机制