這個問題是關於一類類似的問題,但我會問它作爲一個具體的例子。如何可靠地檢測異常資源消耗?
我有一個文件系統的內容波動的服務器。我需要監視此文件系統上的可用空間,以確保它不會被填滿。爲了爭論,我們假設如果它填滿了,服務器就會關閉。
這並不重要,它可能是一個「工作」隊列。
在「正常」操作,在可用空間內的「正常」範圍而變化,但有可能是病變:
- 其他一些(可能是外部的) 部件,增加了工作可能失控 的
- 一些部件,消除工作抓住了,但仍未被發現
過程的統計特性基本上都是未知的。
我在尋找的是一種算法,它將可用空間的定時週期性測量值(歡迎輸入的替代建議)作爲輸入,併產生輸出,當事情「異常」時發出警報,文件系統「很可能會被填滿」。避免誤報顯然是非常重要的,但避免誤報幾乎同樣重要,以避免麻木系統管理員的大腦,因爲他們會發出警報。
我明白,有其他解決方案,比如在底層問題上拋出更多的存儲空間,但實際上我遇到了1000次不足的情況。
考慮到存儲的歷史測量結果的算法很好,儘管最小化歷史數據量的動態算法是優選的。
我已經接受了弗蘭克的回答,我現在要回到繪圖板,以深入研究他的引用。
有三種情況,我覺得,興趣愛好,不是爲了:
- 的「哈羅德銷售剛剛起步」的情景:活動的峯值,在一秒鐘的分辨率是「關撥號「,但並不代表資源枯竭的真正危險;
- 「全球變暖」情景:需要計劃(相對)穩定的增長;和
- 「Google向我發送索引的主動副本」方案:這會以相對較短的順序耗盡我的所有資源,除非我採取措施阻止它。
這是最後一個就是(我認爲)最有趣的,富有挑戰性的,從一個系統管理員的角度..
+1 Frank,謝謝你的深思熟慮。我已經探索了排隊論;和統計平滑,卡爾曼濾波等等。但是仍然存在的一個大問題是如何區分突然爆發的活動和未決的災難。 – 2008-12-23 14:16:57