Weka中的KNN算法永遠不要在大數據集上完成

回到datamining並與Weka和WekaSharp一起使用datamining的問題。通過WekaSharp，我對一個相當大的數據集進行了一些分析，這個數據集是KDD Cup 1999 10％數據庫（〜70 mb）。使用決策樹J48算法和樸素貝葉斯算法每個都需要10到30分鐘才能完成，我獲得了很好的結果。當我通過KNN算法運行相同的數據，並且它從未完成分析時，它不會錯誤地直接運行。我嘗試了所有不同的參數，但沒有任何效果。當我在一個較小的樣本數據集（如iris.arff）上運行相同的KNN算法時，它完成並不困難。這裏是我對KNN參數的設置：「-K 1 -W 0 -A \」weka.core.neighboursearch.KDTree -A \\「weka.core.EuclideanDistance -R first-last \\」「\」「 KNN和大型數據集是否存在固有的問題，還是存在安裝問題？非常感謝你。Weka中的KNN算法永遠不要在大數據集上完成

來源

2013-11-26 RedMassiveStar

kNN受到「維度災難」的影響：高維數據集的空間查詢不能像低維數據集一樣有效地優化，從而將其有效地轉化爲強力搜索。

NB嘲笑維度，因爲它基本上忽略了維度。許多決策樹變體在處理高維數據方面也很好。 kNN不喜歡高維數據。期待等待很長時間。

來源

2013-11-26 18:57:39 Sneftel

感謝您的回覆和評論，這是一個非常有用的見解，並且在距離測量方面有很多意義。我很可能會選擇一個不同的算法，因爲我希望能夠對這些組進行大量的運算。再次感謝你。 – RedMassiveStar

你好，就像更新一樣，我讓算法在F＃中運行完成，到目前爲止，順序時間平均在53小時完成。所以它最終完成:-)。 – RedMassiveStar

Weka中的KNN算法永遠不要在大數據集上完成

回答

相關問題