エラーバジェットで優先度を決める
ルール
エラーバジェットの消費状況に応じて、以下を組織として事前に合意し、厳格に適用する:
- バジェット残あり → 新機能開発・実験を積極的に進める
- バジェット75%消費 → リリース前の影響分析を強化する
- バジェット枯渇(100%消費) → 新機能リリースを凍結し、信頼性改善を最優先にする
この判断を感情・政治・個人の意見で覆さない。
理由
「信頼性か速度か」の議論は、ステークホルダーが変わるたびに繰り返される。この議論に毎回リソースを使うのは非効率で、しばしば感情的になる。
エラーバジェットポリシーを事前合意することで:
- PM・開発・SREが同じ基準で議論できる
- 「なぜ今信頼性改善をするのか」を数値で説明できる
- SREが「邪魔者」にならず、開発のパートナーになれる
例外
- セキュリティパッチ(緊急度が高いものはバジェット関係なくリリース)
- ビジネス上やむを得ない事情(法的要件など)——ただし例外は文書化する
出典
Google SRE Workbook(Betsy Beyer他)第2章「Implementing SLOs」