2012-06-04 89 views
0

我有一個數據集,頻繁執行數據挖掘操​​作。我想根據更新數據的頻率來執行數據挖掘操​​作的頻率。有什麼方程式可以根據數據更新頻率給出最佳採礦頻率?如果不是,我想要自己推出,我該怎麼辦?如果我想包含更多變量呢?如果有任何可用的,我只需要一些指向一些閱讀材料的指針。謝謝。最佳更新頻率

回答

0

這不是一個真正的CS問題,即使它聽起來像一個(除非它是一個家庭作業問題......我假設你有一個真正的世界問題來解決)。我假設你是「數據挖掘」,你所做的不僅僅是針對實時OLTP數據庫運行查詢(比如在獨立系統上設置多維數據集)。這將歸結爲用戶問題。答案取決於:

  • 您正在捕獲的數據中的模式(是週期性的,即每小時/每天/每週)。比一次循環更頻繁地更新可能不會有用。同樣,如果它是基於事件的,並且事件不會持續發生,那麼比傳入事件更頻繁地更新採礦系統將毫無用處。
  • 您是否可以收集數據以將其轉換爲數據挖掘設置,而不會讓用戶或系統寫入原始數據?如果不是,則在系統負載較低時需要執行此操作。如果您正在分析日誌或使用自動複製(即Oracle流),那麼您可能在此處不受限制。
  • 什麼時候進行數據挖掘的人員/流程會停止並接受新的數據集......您不能僅僅從正在進行的工作中抽出地毯並替換他們正在處理的數據。

答案可能不會是你可以「派生」的東西。它將來自任何一端用戶(自動或人工)的限制。

+0

謝謝你的回答。你的觀點很好。是的,數據挖掘不會影響使用該系統的用戶,所以沒關係。謝謝您的回答。 –

0

不知道你的數據是什麼樣,或者你的需求是什麼 - 通常我們datamine到

  1. 發現數據中的模式
  2. 創建一個模型來對我們的(過去的)基本決定未來數據

你只需要當

  1. 進一步datamine你哈已經收集到足夠的「新」數據
  2. 你已經收集了足夠的「新」的數據,你必須不再與模型預測的新現象
  3. 你已經開發出一種新技術,或修改,你也許能找到新模式再次

有些盲目猜測在這樣一種方式,它將使意義進行數據挖掘的數據:

  1. 您收集新數據,這將是目前的數據集的5%我每次執行該操作,即,如果您有10千兆字節,請在之後執行操作收集.5 GB(假設這是可行的!(不到一天的時間))
  2. ,如果你沒有在這個規模收集新的數據,運行操作每週應該是相對便宜,肯定會緩解你的頭腦
  3. ,如果你每天尺度千兆字節數據收集或更多,那麼瓶頸就是操作成本。根據您的判斷,如果手術時間超過一天,可能每月一次。在這種規模下,運營本身將開始花費計算能力,公司應聘請專家。

只要一個公式,沒有,但我會引用你的維基百科文章Statistical Significance

+0

感謝您的回覆。這非常有幫助。我一直對使用統計顯着性有點謹慎,因爲它沒有真正告訴我們任何事情。但我很感謝你的迴應。 –

+0

也許你誤解了這個意圖。統計顯着性幾乎肯定是任何數據挖掘算法的必要條件。在我們的情況下,我們希望至少5%的數據中的任何子集都能展示任何「模式」。例如,假設您有一個關於10 GB動物的數據集,其中包含1 MB的cat數據。我們收集0.5 GB的新數據,但沒有新的數據,執行操作。但是如果我們收集到50 MB的新數據,但它恰好是所有的貓數據,那麼一定要進行操作。因爲這可能會爲您的貓模型提供統計上顯着的數據。 –

+0

當然這也是棘手的,因爲你必須考慮數據集的所有可能的交集,子集和特徵組合。你可能只有1%的新數據,但如果你碰巧知道它是有用的新數據,那麼肯定會做這個操作。找我? –