如何在生產中監控應用程序?日誌,正常運行時間,等...(我寧願一個外部應用程序,自由和開放源碼)監控應用程序,正常運行時間,日誌文件等
例如,我想
- 發出警報的能力,如果應用程序出現故障
- 如果CPU使用率發送警報>大於設置的閾
- 發送警報,如果內存使用量>比設定的閾值
- 發送警報的錯誤消息
- 必須是可配置的,也許一些錯誤如果發生X TI發送警報MES Y中的時間
如何在生產中監控應用程序?日誌,正常運行時間,等...(我寧願一個外部應用程序,自由和開放源碼)監控應用程序,正常運行時間,日誌文件等
例如,我想
Nagios是要走的路 - 一個學習曲線,但可定製,功能強大。同時還擁有服務器端的後臺程序可以監控文件,磁盤空間等
我們在房子建一塊監控軟件的定製。
它監視我們的各種現場設備(和測試),由我們的Web應用程序產生的錯誤事件日誌。我們所有的Web應用程序都會寫入錯誤日誌的任何例外。它還可以ping服務器和監視驅動器空間。
種種dev的機器,民意調查,監視我們定義的所有服務器上的服務器程序上的客戶端應用程序。這個客戶端應用程序在任務托盤中運行,當任何事情超出規範時彈出消息,以便開發人員立即看到它。我們還可以看到測試人員何時遇到錯誤,並且在測試人員甚至報告錯誤時通常會修復或至少進行修復。
服務器還從電子郵件到通訊組,以便我們可以看到重要的錯誤,而不是在工作,如果我們需要的。
它也有能力抑制預定義的異常/錯誤。
許多人正在轉向數據導向解決方案。雖然大多數監控工具(nagios等)都提供靜態圖表,但它們更加孤島,傳統視圖 - 今天的應用程序高度分佈,事務跨越多個服務器,事情會變得瘋狂。對於超越kpis和簡單apis的更高級功能,您需要查看諸如Logscape或Splunk之類的機器數據解決方案。它們允許您創建靈活的儀表板等,可以交互式地鑽取以提供非常豐富的根源分析。看看這個頁面上的一些應用LogscapeApps
這實際上更像是一個服務器故障問題。這就是說:Nagios,Netcool等 – Joe 2009-06-18 23:52:32