我在各種服務器上有幾個cron-jobs和後臺任務。這些任務可能會失敗的原因有很多:用於監控cron作業和自動化任務的系統?
- 磁盤空間不足
- 處理奇怪,不可讀文件類型
- 邏輯錯誤/在程序中的bug
- 無效cron項
- 無效JSON收到
- 網絡連接失敗
- db鎖
- s系統庫更新中斷程序
爲什麼它們運行失敗很重要,但最重要的是知道它們無法運行。
是否有一種統一的方式來監視多個作業,並在出現任何原因時無法在預定時間運行時收到警報?我使用Ubuntu,腳本主要是在Ruby中。
注:
我專門找了一個框架或系統跨多個服務器協同工作,並已通過電子郵件或者內置的文本,一個可以生存有限的磁盤空間警報。因此, How can I setup a system to tell me if a cron job is NOT running fine?中提出的解決方案似乎不適用。
我們使用http://www.clowder.io這種類型的服務 – keithhackbarth