2016-02-05 59 views
3

我試圖在DataDog中創建一個警報,當磁盤性能降低我們的機器時,它會提醒我們。如何組合datadog io指標以識別磁盤瓶頸?

作爲一項業務需求,我會說,如果IO在30分鐘內接近飽和(超過90%),應該觸發警報。

以下是當前的指標集被記錄: sys.cpu.iowait system.io.avg_q_sz system.io.avg_rq_sz system.io.await system.io.r_await system.io.r_s system.io.rkb_s system.io.rrqm_s system.io.svctm system.io.util system.io.w_await system.io.w_s system.io.wkb_s system.io.wrqm_s enter image description here

它可以使用任何公式來組合這些,包括SUM和AVG值。

回答

7

這些system.io指標是從system agent check報告的,它使用iostat

根據指標的iostat manpage一個%util(報告中Datadog system.io.util)似乎做的工作:

%UTIL:的CPU時間百分比期間的I/O請求被髮送到設備(設備的帶寬利用率)。當此值接近100%時,會發生設備飽和。

您可以創建一個監控器,如主機/設備上的多警惕,當這個指標是在90上平均的最後30分鐘,這裏就是這樣的例子的當前屏幕截圖:

example monitor in Datadog

當然,還可以監視其他iostat度量標識以識別其他I/O性能故障模式。

+0

謝謝!你的回答非常明顯,但我一直在尋找一段時間沒有運氣 – mdegges