2014-12-02 59 views
1

我是數據挖掘分析和機器學習領域的新成員。我一直在試圖比較使用RapidMiner和Weka進行預測分析和聚類分析以用於我的大學任務。RapidMiner和WEKA:不同的聚類結果

就在我研究了這兩種工具的優點和缺點並開始分析過程之後,我發現了一些問題。我嘗試使用K-means和simpleKmeans進行Weka聚類並使用LinearRegression進行迴歸分析,我對結果不滿意,因爲它們包含顯着不同的結果。所有這些我都使用了相同的數據集。數字數據集。

我一直花費大量的時間試圖通過研究每種算法的每種算法的初始化來計算出某些東西,因爲接口是不同的,並且有一些參數在RapidMiner上但不在Weka或其他方面,所以我有點困惑。 (這是問題嗎?)

儘管如此,你認爲什麼是錯的?有沒有我錯過的初始化過程?還是因爲即使他們使用相同的算法,每個工具中的代碼都不相同?

謝謝你的回答!

回答

1

Weka通常使用內置的標準化至少在k-means和其他算法。

如果您想要使結果具有可比性,請確保已禁用此功能。

也明白k-means是一個隨機算法。不同的結果甚至來自相同的包也是可以預期的(並且是可取的)。

+0

謝謝,這只是我需要的東西。 但我們如何禁用它?我在weka資源管理器中搜索過,但沒有發現如何禁用它。 除此之外,我已經做了一些谷歌搜索,是的,我發現一些文件解釋它。但它沒有提到weka使用什麼標準化方法。 因爲我不知道如何禁用它我一直在嘗試在RapidMiner中添加標準化運算符,並嘗試使用所有可用的方法,但仍然沒有可比性。 你有什麼想法嗎? 非常感謝您的回覆! :) – 2014-12-05 07:20:29

+0

IIRC(我不使用Weka很多,ELKI更快)有一個距離函數的選項。 – 2014-12-05 08:33:38

0

您是否使用過WEKA本身或rapidminer的WEKA擴展?你有沒有試圖比較WEKA和RM WEKA的結果?

+0

我使用了WEKA本身。是的,我也嘗試過,結果是一樣的。所以問題確實來自Weka中的simpleKmeans算法,就像Anony-Mousse所回答的一樣。它包含內置的規範化 – 2014-12-05 07:23:00