🎯
DevOps・運用 2026年4月4日

インシデントコマンドシステム

📁 パターン 👁 -- 閲覧

インシデントコマンドシステム

定義

インシデント対応を構造化するためのロール(役割)ベースのフレームワーク。もともと消防の指揮システムから派生した。

ロール役割
IC(Incident Commander)指揮官。全体を統括し、優先度を決定する
OL(Operations Lead)技術的な修正作業を実行するチームをリード
CL(Communications Lead)社内外への状況報告・エスカレーションを担当

なぜ重要か

大規模インシデントで「全員が技術対応に集中」すると:

  • 状況が外部に伝わらない(ユーザー・経営層が不安)
  • 誰が何をすべきかがわからず二重作業が発生
  • 重要な判断(ロールバックすべきか)が先送りになる

ICは問題を解決しない。チームが解決できるよう指揮することが仕事。

適用場面

  • 複数チームをまたぐSEV1インシデント
  • 対応が長期化(1時間超)するインシデント
  • 初めてオンコールをするエンジニアのガイドとして

3C フレームワーク

C意味実践
Coordinate調整IC がリソース配分と優先度を決定
Communicate伝達CL が定期的(15〜30分ごと)に状況を共有
Control制御変更を行う前に IC に確認を取る

インシデント対応の流れ

  1. アラート受信 → 初動担当がICを宣言
  2. インシデントチャンネル(Slack等)を作成し招集
  3. ICが状況把握 → 深刻度評価 → ロール割り当て
  4. OLが技術対応、CLが状況報告(外部ページ更新など)
  5. 収束宣言 → ポストモーテム日程調整

ハンドオフのポイント

長時間インシデントではICを交代させる(燃え尽き防止):

  • 現状と仮説を文書化してから交代
  • 「今試みていること」「試みていないこと」を明記

関連パターン

出典

Google SRE Workbook(Betsy Beyer他)第9章「Incident Response」