2013-11-26 70 views
2

回到datamining並與Weka和WekaSharp一起使用datamining的問題。通過WekaSharp,我對一個相當大的數據集進行了一些分析,這個數據集是KDD Cup 1999 10%數據庫(〜70 mb)。使用決策樹J48算法和樸素貝葉斯算法每個都需要10到30分鐘才能完成,我獲得了很好的結果。當我通過KNN算法運行相同的數據,並且它從未完成分析時,它不會錯誤地直接運行。我嘗試了所有不同的參數,但沒有任何效果。當我在一個較小的樣本數據集(如iris.arff)上運行相同的KNN算法時,它完成並不困難。這裏是我對KNN參數的設置: 「-K 1 -W 0 -A \」weka.core.neighboursearch.KDTree -A \\「weka.core.EuclideanDistance -R first-last \\」「\」 「 KNN和大型數據集是否存在固有的問題,還是存在安裝問題?非常感謝你。Weka中的KNN算法永遠不要在大數據集上完成

回答

2

kNN受到「維度災難」的影響:高維數據集的空間查詢不能像低維數據集一樣有效地優化,從而將其有效地轉化爲強力搜索。

NB嘲笑維度,因爲它基本上忽略了維度。許多決策樹變體在處理高維數據方面也很好。 kNN不喜歡高維數據。期待等待很長時間。

+0

感謝您的回覆和評論,這是一個非常有用的見解,並且在距離測量方面有很多意義。我很可能會選擇一個不同的算法,因爲我希望能夠對這些組進行大量的運算。再次感謝你。 – RedMassiveStar

+0

你好,就像更新一樣,我讓算法在F#中運行完成,到目前爲止,順序時間平均在53小時完成。所以它最終完成:-)。 – RedMassiveStar