🚨

DevOps・運用 2026年4月4日

インシデント管理

📁 概念 👁 -- 閲覧

インシデント管理

定義

インシデントとは、ユーザーに影響を与える、または与える可能性のある本番環境の問題。

インシデント管理は以下のフェーズで構成される：

検知 — アラートまたはユーザー報告で問題を認識
トリアージ — 影響範囲・深刻度を評価
対応 — 問題の収束（恒久対応でなくてよい）
コミュニケーション — 関係者への状況共有
収束宣言 — サービス復旧を確認
ポストモーテム — 再発防止と学習

なぜ重要か

場当たり的な対応は：

同じ人が全てを抱え込み燃え尽きる
情報が錯綜し判断が遅れる
解決しても原因が不明なまま再発する

体系的なインシデント管理により、誰が何をすべきかが明確になり、対応速度と品質が上がる。

インシデントレベルの分類例

レベル	影響	対応
SEV1	全ユーザーに影響、サービス停止	即時・全員招集
SEV2	一部ユーザーに影響	即時・担当チーム
SEV3	軽微な機能劣化	翌営業日

適用場面

オンコール当番が初めてアラートを受信したとき
複数チームをまたぐ大規模障害が発生したとき
ポストモーテムでインシデント対応の改善点を探すとき

関連パターン

インシデントコマンドシステム — 役割分担の具体的フレームワーク
非難のないポストモーテム — インシデント後の学習プロセス
オンコール設計 — 検知フェーズの組織設計

出典

Google SRE Workbook（Betsy Beyer他）第9章「Incident Response」