インシデント管理
定義
インシデントとは、ユーザーに影響を与える、または与える可能性のある本番環境の問題。
インシデント管理は以下のフェーズで構成される:
- 検知 — アラートまたはユーザー報告で問題を認識
- トリアージ — 影響範囲・深刻度を評価
- 対応 — 問題の収束(恒久対応でなくてよい)
- コミュニケーション — 関係者への状況共有
- 収束宣言 — サービス復旧を確認
- ポストモーテム — 再発防止と学習
なぜ重要か
場当たり的な対応は:
- 同じ人が全てを抱え込み燃え尽きる
- 情報が錯綜し判断が遅れる
- 解決しても原因が不明なまま再発する
体系的なインシデント管理により、誰が何をすべきかが明確になり、対応速度と品質が上がる。
インシデントレベルの分類例
| レベル | 影響 | 対応 |
|---|---|---|
| SEV1 | 全ユーザーに影響、サービス停止 | 即時・全員招集 |
| SEV2 | 一部ユーザーに影響 | 即時・担当チーム |
| SEV3 | 軽微な機能劣化 | 翌営業日 |
適用場面
- オンコール当番が初めてアラートを受信したとき
- 複数チームをまたぐ大規模障害が発生したとき
- ポストモーテムでインシデント対応の改善点を探すとき
関連パターン
- インシデントコマンドシステム — 役割分担の具体的フレームワーク
- 非難のないポストモーテム — インシデント後の学習プロセス
- オンコール設計 — 検知フェーズの組織設計
出典
Google SRE Workbook(Betsy Beyer他)第9章「Incident Response」