🚨
DevOps・運用 2026年4月4日

インシデント管理

📁 概念 👁 -- 閲覧

インシデント管理

定義

インシデントとは、ユーザーに影響を与える、または与える可能性のある本番環境の問題

インシデント管理は以下のフェーズで構成される:

  1. 検知 — アラートまたはユーザー報告で問題を認識
  2. トリアージ — 影響範囲・深刻度を評価
  3. 対応 — 問題の収束(恒久対応でなくてよい)
  4. コミュニケーション — 関係者への状況共有
  5. 収束宣言 — サービス復旧を確認
  6. ポストモーテム — 再発防止と学習

なぜ重要か

場当たり的な対応は:

  • 同じ人が全てを抱え込み燃え尽きる
  • 情報が錯綜し判断が遅れる
  • 解決しても原因が不明なまま再発する

体系的なインシデント管理により、誰が何をすべきかが明確になり、対応速度と品質が上がる。

インシデントレベルの分類例

レベル影響対応
SEV1全ユーザーに影響、サービス停止即時・全員招集
SEV2一部ユーザーに影響即時・担当チーム
SEV3軽微な機能劣化翌営業日

適用場面

  • オンコール当番が初めてアラートを受信したとき
  • 複数チームをまたぐ大規模障害が発生したとき
  • ポストモーテムでインシデント対応の改善点を探すとき

関連パターン

出典

Google SRE Workbook(Betsy Beyer他)第9章「Incident Response」