アラートは即座に対応できるもののみ発火させる
ルール
アラートを設定する前に「このアラートが発火したとき、オンコール担当者は今すぐ何をすべきか」を明確にできない場合、そのアラートは設定しない。
- ページングアラート(電話・Slackで即時通知):今すぐ対応しないとユーザーへの影響が拡大するもの
- チケット(翌営業日対応):対応が必要だが緊急ではないもの
- ダッシュボード(能動的確認):傾向観察が目的のもの
理由
対応できないアラートが増えると:
- アラート疲弊(Alert Fatigue)が発生し、本当に重要なアラートを見逃す
- オンコール担当者が「どうせまたノイズだろう」と判断を遅らせるようになる
- 信頼性チームへの信頼が低下する
アラートの質はPrecision(発火したときに本当に問題があった割合)とRecall(問題が起きたときに検知できた割合)で評価できる。Precisionが低いアラートは積極的に削除または降格する。
実践
四半期ごとにアラートの棚卸しを行い:
- 過去3ヶ月で一度も対応アクションが発生しなかったアラートを削除/降格
- 毎回同じ対応(ランブック通りの操作)で完結するアラートを自動化検討
例外
ビジネス上の理由で「記録のためだけ」のアラートが必要なケースがある。その場合はページングではなくログ/チケットにとどめる。
出典
Google SRE Workbook(Betsy Beyer他)第5章「Alerting on SLOs」