ゴールデンシグナル
定義
Google SREが定義した、サービスの健全性を監視するための4つの核心的指標:
| シグナル | 意味 | 例 |
|---|---|---|
| レイテンシ | リクエストを処理するのにかかる時間 | P50/P99/P999レスポンスタイム |
| トラフィック | システムへの需要量 | RPS(リクエスト/秒)、同時接続数 |
| エラー率 | 失敗したリクエストの割合 | 5xx率、タイムアウト率 |
| 飽和度 | サービスの「どのくらい詰まっているか」 | CPU使用率、キューの深さ、ディスク残量 |
なぜ重要か
無数のメトリクスから「どれを見るべきか」を絞る指針として機能する。
- レイテンシ単体では速いか遅いかわからない(エラーとの組み合わせが重要)
- エラー率単体では原因がわからない(飽和度との組み合わせで仮説が立つ)
- 4つを組み合わせることで、多くの障害パターンが網羅できる
特に「成功リクエストと失敗リクエストのレイテンシは別々に計測する」ことが重要。エラーは即座にレスポンスを返すため、レイテンシを低く見せることがある。
適用場面
- 新しいサービスの監視を設計するとき(まずゴールデンシグナル4つを計測する)
- アラートが多すぎて何が重要かわからなくなったとき
- SLIの候補を選定するとき
USE / RED との関係
| フレームワーク | 対象 | 指標 |
|---|---|---|
| ゴールデンシグナル | ユーザー向けサービス全般 | Latency / Traffic / Errors / Saturation |
| USE (Utilization/Saturation/Errors) | インフラリソース(CPU、メモリ、ディスク) | 主にシステム内部 |
| RED (Rate/Errors/Duration) | マイクロサービス | ゴールデンシグナルのサブセット |
関連概念
- オブザーバビリティ — ゴールデンシグナルを含む広い可視化戦略
- SLO / SLI / SLA — SLIの候補としてゴールデンシグナルを活用
出典
Google SRE Book(Betsy Beyer他)第6章「Monitoring Distributed Systems」 / SRE Workbook第4章