2017-07-06 49 views
1

我正在嘗試使用UP指標來確定服務在一段時間範圍內停機的時間少於一分鐘(可能是網絡呃逆)的次數(或每小時)。我每隔5秒抽樣一次如何查詢Prometheus的服務停機次數

我到目前爲止所獲得的最好結果是== 0只有當服務停止時纔會給我一系列積分,但我不確定接下來要做什麼。

與這種類型的查詢的任何幫助,將不勝感激

感謝。

回答

0

您可以嘗試以下操作:計算上調指標的平均值。如果服務停止,平均(1分鐘的滑動窗口)將隨着時間的推移而減少。

如果工作再次出現,並且平均值大於0,那麼服務不會停止超過一分鐘。

以下查詢(通過Prometheus Web控制檯工作)每次在服務停機超過一分鐘之前提供一個數據點。

avg_over_time(up{job="jobname"} [1m]) > 0 
AND 
irate(up{job="jobname"} [1m]) > 0