2009-01-07 21 views
4

我最後使用的是weka 。最後我聽到java爲它提供了一個API(JDM)。任何人都可以與工具分享他們的經驗。我最感興趣的是使用這些工具進行分類/聚類(weka在這裏做的不錯),而且這個工具應該有很好的API支持。使用什麼數據挖掘應用程序?

+0

嗨...最好的是weka呢? – LB40 2009-06-04 01:23:00

回答

2

我已經使用Weka進行文本分類。很不錯。 book也不錯。一個可以保留數據表示並修改算法的框架的想法非常棒。

0

我們在一些我們爲分類和聚類開發的軟件中使用了Weka。我不是數據挖掘方面的專家,但評估它的團隊以及其他一些產品肯定知道他們的東西,並且通常習慣於使用非常昂貴的現成東西。

2

我使用的是RapidMiner(以前是來自多特蒙德大學的YALE)。它是一個基於Java的開源工具,實現了大多數流行的分類器/集羣方法。它還附帶爲Weka工具包實施的算法,因此這裏有更多選項。帶有一個非常易於使用的GUI和一個基於Java的API。

1

Weka是一個流行的數據挖掘平臺,爲分類,聚類等實施了許多教科書算法。它非常適合快速原型設計,即快速建立系統並驗證它是做它的目的。

然而Weka有兩個主要問題。首先是它是根據GPL許可分發的,這意味着您不能將其用作商業軟件包的一部分,並且您不能修改它並且不發佈更改。另外,Weka的另一個弱點是它不能處理大量的數據。如果你的數據不適合你的計算機的內存,那麼你有問題。

這兩個問題都通過Apache Mahout軟件包解決。這是相對較新的,缺乏一些功能,但取決於你的數據挖掘問題可能是你的正確選擇

+0

其實你可以在商業軟件包中使用GPL許可的東西,只是對它有規定。 [請閱讀。](http://www.gnu.org/philosophy/selling.html) – SMT 2013-01-30 19:30:51

0

根據年度KDnuggets民意調查2007年,2008年和2009年,RapidMiner是最廣泛使用的開源數據全球數據挖掘專家之間的挖掘解決方案: KDnuggets Data Mining Tool Poll 2009

RapidMiner是開源和100%的Java,RapidMiner比Weka更靈活,功能更強大。

0

你真的應該看看Orange數據挖掘工具包。它帶有一個拖放gui以及一個Python API。

0

我用我自己的軟件用Java開發和專門從交易數據庫或序列數據庫頻繁模式和關聯規則挖掘:

http://www.philippe-fournier-viger.com/spmf/

,提供46種算法,包括一些算法,你不會找到任何其他流行的數據挖掘軟件。有一個GUI版本和一個源代碼版本。