2017-08-30 77 views
0

我試圖將Nagios-NRPE檢查變爲Check_MK檢查。第一個是:check_mk「進程的狀態和計數」規則閾值

check_procs -w 10 -c 15 -C crond 

我嘗試使用State and coung processes規則,但它總是提出一個嚴重警報。我的規則的參數(從rules.mk配置文件中提取):

'process': 'crond' 
'okmax': 10 
'okmin': 1 
'warnmax': 15 
'warnmin': 11 

由於WATO配置屏幕隻字未提臨界閾值,我已經猜到了這些閾值之外的值以上提高的關鍵警報。

我的問題是:當此規則處於活動狀態時,即使發現的進程數在OK閾值以內,也會引發嚴重警報

警報的Status detail

CRIT - 7 processes (ok from 1 to 15)CRIT 1620.6 MB virtual, 28.2 MB resident, 2.7% CPU 

然後,我無法理解這樣的行爲,我覺得我誤解了check_MK閾值參數還是我失去了一些東西。

你能幫我嗎?

Thanx提前。

回答

0

正如我在我的問題最後一段中所懷疑的,我誤解了check_MK閾值參數。

這些都是~/share/check_mk/checks/ps發現Python代碼行:

state = 0 
if count > params["warnmax"] or count < params["warnmin"]: 
    state = 2 
    infotext += " (ok from %d to %d)(!!)" % (params["okmin"], params["okmax"]) 
elif count > params["okmax"] or count < params["okmin"]: 
    state = 1 
    infotext += " (ok from %d to %d)(!)" % (params["okmin"], params["okmax"]) 

因此,任何價值低於warnmin提出了一個嚴重警報。因此,爲了防止這種情況,必須包括一個。在我的示例中,值應該降低以匹配okmin之一。

'process': 'crond' 
'okmax': 10 
'okmin': 1 
'warnmax': 15 
'warnmin': 1 

在數學術語中,ok間隔必須爲warn一個子區間。

我錯誤地猜到這些間隔不應該重疊,但實際上他們必須。