2016-05-06 28 views
0

我在我的系統上運行了< 24次檢查。服務器並不經常負載過重。在正常操作期間,負載平均值保持在1以下。Sensu Scheduler奇數

我已經注意到一個重新發生的問題,其中check-cpu檢查將開始在系統中觸發高負載平均數,而高負載沒有任何有機原因。進一步調查顯示,高負載報告實際上是由於check-cpu腳本與其他檢查並行運行。在執行檢查之外,CPU負載很好。

我從sensu 0.20升級到0.23並繼續觀察相同的問題。

我們發現sensu-server和sensu-client服務的重新啓動可以解決問題一段時間(大約24小時),然後它將返回。

我們在這個理論上,在主機上的檢查的調度/執行中必定存在某種時間延遲,這會導致這種重疊最終發生。

所有檢查都設置爲30或60

我決定退房CPU檢查的間隔設置爲83區間運行,至今未發生問題。可能是因爲check-cpu檢查與其他任何人不一致,因此在短時間內沒有看到高CPU負載。

這是某種固有的調度問題與sensu?是否應該知道如何發送具有足夠間距的檢查,或者這是應該由interval參數控制的東西嗎?

謝謝!

+0

由於類似的原因,我們在不同的,非對齊的間隔運行我們的支票。而不是每30秒。 –

回答

2

我注意到,檢查在執行時間漂移。即他們並不是每30秒跑一次,而是每30分鐘跑一次或類似的事情。我猜測不同的檢查可能會有所不同。因此,最終你會遇到檢查同步並且同時運行的問題,導致問題。定期運行更多檢查(30秒,60秒等)將會使此問題更頻繁地發生。如果你想改變這個問題,你必須報告給sensu directly。我認爲他們最終可能會修復它,因爲他們可能希望系統具有可擴展性。

+1

感謝您的輸入!這非常有幫助。 我與Sensu一起打開此問題:https://github.com/sensu/sensu/issues/1260 – dank