多ウィンドウ多バーンレートアラート
定義
SLOベースのアラートで精度と感度を両立するパターン。異なる時間窓(long/short)と異なるバーンレートしきい値を組み合わせる。
なぜ重要か
単一のアラートでは:
- 短い窓 → 誤検知が多い(ノイズ)
- 長い窓 → 検知が遅れる(実害が出てから気付く)
多ウィンドウを組み合わせることで「継続して問題が起きているか」を確認できる。
実装パターン(SLO 99.9%の場合)
ページングアラート(即時対応)
| 時間窓(long) | 時間窓(short) | バーンレートしきい値 | バジェット消費 |
|---|---|---|---|
| 1時間 | 5分 | 14.4 | 2時間で1/12 |
| 6時間 | 30分 | 6 | 12時間で1/5 |
条件:long窓 AND short窓の両方でしきい値を超えたときにページング。
チケットアラート(翌営業日対応)
| 時間窓(long) | バーンレートしきい値 | バジェット消費 |
|---|---|---|
| 3日 | 3 | 3日で1/10 |
| 3日 | 1 | 30日で使い切る(参考) |
適用場面
- SLOを設定したサービスのアラートを設計するとき
- 既存のしきい値ベースアラートが誤検知だらけのとき
- 「なぜ検知が遅れたか」をポストモーテムで分析しているとき
低トラフィックサービスへの注意
リクエスト数が少ないと、統計的ノイズでバーンレートが急変する。対策:
- 最小リクエスト数のフィルタを設ける
- より長い時間窓を使う
- Alerting on Absence(リクエストゼロの検知)を別途設定
関連概念
出典
Google SRE Workbook(Betsy Beyer他)第5章「Alerting on SLOs」