🔔
DevOps・運用オブザーバビリティ 2026年4月4日

多ウィンドウ多バーンレートアラート

📁 パターン 👁 -- 閲覧

多ウィンドウ多バーンレートアラート

定義

SLOベースのアラートで精度と感度を両立するパターン。異なる時間窓(long/short)と異なるバーンレートしきい値を組み合わせる

なぜ重要か

単一のアラートでは:

  • 短い窓 → 誤検知が多い(ノイズ)
  • 長い窓 → 検知が遅れる(実害が出てから気付く)

多ウィンドウを組み合わせることで「継続して問題が起きているか」を確認できる。

実装パターン(SLO 99.9%の場合)

ページングアラート(即時対応)

時間窓(long)時間窓(short)バーンレートしきい値バジェット消費
1時間5分14.42時間で1/12
6時間30分612時間で1/5

条件:long窓 AND short窓の両方でしきい値を超えたときにページング。

チケットアラート(翌営業日対応)

時間窓(long)バーンレートしきい値バジェット消費
3日33日で1/10
3日130日で使い切る(参考)

適用場面

  • SLOを設定したサービスのアラートを設計するとき
  • 既存のしきい値ベースアラートが誤検知だらけのとき
  • 「なぜ検知が遅れたか」をポストモーテムで分析しているとき

低トラフィックサービスへの注意

リクエスト数が少ないと、統計的ノイズでバーンレートが急変する。対策:

  • 最小リクエスト数のフィルタを設ける
  • より長い時間窓を使う
  • Alerting on Absence(リクエストゼロの検知)を別途設定

関連概念

出典

Google SRE Workbook(Betsy Beyer他)第5章「Alerting on SLOs」