🔕
DevOps・運用オブザーバビリティ 2026年4月4日

アラートは即座に対応できるもののみ発火させる

📁 ルール 👁 -- 閲覧

アラートは即座に対応できるもののみ発火させる

ルール

アラートを設定する前に「このアラートが発火したとき、オンコール担当者は今すぐ何をすべきか」を明確にできない場合、そのアラートは設定しない。

  • ページングアラート(電話・Slackで即時通知):今すぐ対応しないとユーザーへの影響が拡大するもの
  • チケット(翌営業日対応):対応が必要だが緊急ではないもの
  • ダッシュボード(能動的確認):傾向観察が目的のもの

理由

対応できないアラートが増えると:

  • アラート疲弊(Alert Fatigue)が発生し、本当に重要なアラートを見逃す
  • オンコール担当者が「どうせまたノイズだろう」と判断を遅らせるようになる
  • 信頼性チームへの信頼が低下する

アラートの質はPrecision(発火したときに本当に問題があった割合)とRecall(問題が起きたときに検知できた割合)で評価できる。Precisionが低いアラートは積極的に削除または降格する。

実践

四半期ごとにアラートの棚卸しを行い:

  • 過去3ヶ月で一度も対応アクションが発生しなかったアラートを削除/降格
  • 毎回同じ対応(ランブック通りの操作)で完結するアラートを自動化検討

例外

ビジネス上の理由で「記録のためだけ」のアラートが必要なケースがある。その場合はページングではなくログ/チケットにとどめる。

出典

Google SRE Workbook(Betsy Beyer他)第5章「Alerting on SLOs」