📊
DevOps・運用オブザーバビリティ 2026年4月4日

ゴールデンシグナル

📁 概念 👁 -- 閲覧

ゴールデンシグナル

定義

Google SREが定義した、サービスの健全性を監視するための4つの核心的指標:

シグナル意味
レイテンシリクエストを処理するのにかかる時間P50/P99/P999レスポンスタイム
トラフィックシステムへの需要量RPS(リクエスト/秒)、同時接続数
エラー率失敗したリクエストの割合5xx率、タイムアウト率
飽和度サービスの「どのくらい詰まっているか」CPU使用率、キューの深さ、ディスク残量

なぜ重要か

無数のメトリクスから「どれを見るべきか」を絞る指針として機能する。

  • レイテンシ単体では速いか遅いかわからない(エラーとの組み合わせが重要)
  • エラー率単体では原因がわからない(飽和度との組み合わせで仮説が立つ)
  • 4つを組み合わせることで、多くの障害パターンが網羅できる

特に「成功リクエストと失敗リクエストのレイテンシは別々に計測する」ことが重要。エラーは即座にレスポンスを返すため、レイテンシを低く見せることがある。

適用場面

  • 新しいサービスの監視を設計するとき(まずゴールデンシグナル4つを計測する)
  • アラートが多すぎて何が重要かわからなくなったとき
  • SLIの候補を選定するとき

USE / RED との関係

フレームワーク対象指標
ゴールデンシグナルユーザー向けサービス全般Latency / Traffic / Errors / Saturation
USE (Utilization/Saturation/Errors)インフラリソース(CPU、メモリ、ディスク)主にシステム内部
RED (Rate/Errors/Duration)マイクロサービスゴールデンシグナルのサブセット

関連概念

出典

Google SRE Book(Betsy Beyer他)第6章「Monitoring Distributed Systems」 / SRE Workbook第4章