Toilは測定してから自動化する
ルール
Toil削減に取り組む前に、必ず「何に何時間使っているか」を計測する。計測なしに「あれが辛い」という感覚だけで自動化の優先度を決めない。
具体的な手順:
- 2〜4週間、Toilの種類と所要時間を記録する
- カテゴリ別(アラート対応・デプロイ・設定変更など)に集計する
- 最も時間を占めているToilから自動化を始める
理由
エンジニアの「辛さの感覚」と「実際の時間コスト」はしばしば一致しない:
- 精神的に負担な作業は実際より大きく感じる
- 毎日5分の作業より週1回の1時間作業の方が目立つ
- 自動化の難易度と削減効果の見積もりも感覚では外れる
データがあれば、「自動化にかかる時間 vs 削減できる時間」のROIを計算できる。これにより投資判断を合理的に行える。
例外
- 明らかに繰り返し発生しており、かつ自動化が容易なもの(ワンライナーで済むレベル)は測定前から自動化してよい
- チームの士気が著しく低下している作業は、ROIよりも優先して対処する
出典
Google SRE Workbook(Betsy Beyer他)第6章「Eliminating Toil」