2013-10-11 72 views
1

我使用Weka在幾個大型數據集上執行分類,聚類和一些迴歸。我目前正在嘗試所有分類器(決策樹,支持向量機,樸素貝葉斯等)。掃描所有機器學習分類器?

有沒有一種方法(在Weka中或其他機器學習工具包)通過所有可用的分類算法來掃去發現,生產出最好的交叉驗證的準確度或其他度量的人嗎?

我想找到最好的聚類算法,也爲我的其他聚類問題;也許找到最低的平方和誤差?

+0

你已經試用了WEKA-Experimenter嗎?它允許使用許多分類器並將結果與​​統計測試進行比較。 – aldorado

回答

3

是不是某種過度擬合,太?嘗試大量的分類器,並選擇最好的?

另外請注意,預處理通常是非常重要的,不同的分類可能需要不同的預處理;每個分類器又有十多個參數...

相同的聚類,不要選擇一個度量的聚類算法。因爲如果你選擇例如「最低平方和」,k-means 將獲得勝利。不是因爲它更好。但是因爲更適合到您的評估方法:k-means優化了平方和。結果可能是其他指標的垃圾,但在SSQ上,它們在設計上是局部最優的。

數據挖掘是不是可以自動到一個按鈕的水平。

這是一個技巧,需要經驗,如何預處理,選擇算法,調整參數評估實際結果。否則,您會在市場上購買一些軟件,您只需提供數據並獲得最佳分類器。

+1

是的,我意識到數據挖掘是很好的藝術,大部分工作都在特徵工程中。但我只想知道是否有辦法使分類器選擇過程自動化。在過去幾個月的每次交叉驗證後,我一直親自操作Weka並檢查結果,並希望使其更容易一些。 – stackoverflowuser2010

+0

另外,如果我正在進行交叉驗證,爲什麼我不選擇具有最高n倍交叉驗證準確度的分類器?這是標準做法,對嗎? – stackoverflowuser2010

+1

@ Anony-Mousee:「數據挖掘不是您可以自動執行的按鈕級別。」我知道你只是說保護你的工作。 – stackoverflowuser2010