🎓
DevOps・運用チーム・コミュニケーション 2026年4月4日

インシデントを学習機会として扱う

📁 ルール 👁 -- 閲覧

インシデントを学習機会として扱う

ルール

インシデントが発生したとき、以下の問い方を徹底する:

  • NG:「誰がやらかしたのか」「なぜ確認しなかったのか」
  • OK:「どんな条件が重なって障害が起きたか」「システムのどこが人間のミスを誘発したか」

そのうえで、ポストモーテムを通じて得た知識をチーム全体で共有し、再発防止策を実行する。

理由

個人を責めると:

  • エンジニアが失敗を隠す or 過度にリスクを避けるようになる
  • 表面的な「注意する」という再発防止策に終わる
  • 組織の学習機会が失われる

「システムの問題」として捉えると:

  • 根本原因にたどり着ける(「なぜミスを誘発する設計になっているのか」)
  • チームの心理的安全性が高まり、詳細な経緯が共有される
  • 同じパターンの障害を組織全体で防げる

実践

  • インシデント後48〜72時間以内にポストモーテムのドラフトを作成
  • ポストモーテムを社内で公開し(オプトインで通知)、他チームの学習にも使う
  • 特に重要な教訓は「障害のレポート」として定期的にまとめ組織に共有

例外

  • 意図的な悪意ある行為(sabotage)は別途対処が必要
  • ただし、ほとんどのインシデントはシステム・プロセスの問題であり、個人の悪意ではない

関連パターン

出典

Google SRE Workbook(Betsy Beyer他)第10章「Postmortem Culture: Learning from Failure」