我最後使用的是weka 。最後我聽到java爲它提供了一個API(JDM)。任何人都可以與工具分享他們的經驗。我最感興趣的是使用這些工具進行分類/聚類(weka在這裏做的不錯),而且這個工具應該有很好的API支持。使用什麼數據挖掘應用程序?
回答
我已經使用Weka進行文本分類。很不錯。 book也不錯。一個可以保留數據表示並修改算法的框架的想法非常棒。
我們在一些我們爲分類和聚類開發的軟件中使用了Weka。我不是數據挖掘方面的專家,但評估它的團隊以及其他一些產品肯定知道他們的東西,並且通常習慣於使用非常昂貴的現成東西。
我使用的是RapidMiner(以前是來自多特蒙德大學的YALE)。它是一個基於Java的開源工具,實現了大多數流行的分類器/集羣方法。它還附帶爲Weka工具包實施的算法,因此這裏有更多選項。帶有一個非常易於使用的GUI和一個基於Java的API。
Weka是一個流行的數據挖掘平臺,爲分類,聚類等實施了許多教科書算法。它非常適合快速原型設計,即快速建立系統並驗證它是做它的目的。
然而Weka有兩個主要問題。首先是它是根據GPL許可分發的,這意味着您不能將其用作商業軟件包的一部分,並且您不能修改它並且不發佈更改。另外,Weka的另一個弱點是它不能處理大量的數據。如果你的數據不適合你的計算機的內存,那麼你有問題。
這兩個問題都通過Apache Mahout軟件包解決。這是相對較新的,缺乏一些功能,但取決於你的數據挖掘問題可能是你的正確選擇
其實你可以在商業軟件包中使用GPL許可的東西,只是對它有規定。 [請閱讀。](http://www.gnu.org/philosophy/selling.html) – SMT 2013-01-30 19:30:51
根據年度KDnuggets民意調查2007年,2008年和2009年,RapidMiner是最廣泛使用的開源數據全球數據挖掘專家之間的挖掘解決方案: KDnuggets Data Mining Tool Poll 2009
RapidMiner是開源和100%的Java,RapidMiner比Weka更靈活,功能更強大。
你真的應該看看Orange數據挖掘工具包。它帶有一個拖放gui以及一個Python API。
我用我自己的軟件用Java開發和專門從交易數據庫或序列數據庫頻繁模式和關聯規則挖掘:
http://www.philippe-fournier-viger.com/spmf/
,提供46種算法,包括一些算法,你不會找到任何其他流行的數據挖掘軟件。有一個GUI版本和一個源代碼版本。
- 1. 使用Amazon EC2的數據挖掘應用程序?
- 2. 什麼是數據挖掘模型?
- 3. Django/Postgres應用程序中的數據挖掘
- 4. 使用Sql Server進行數據挖掘
- 5. 使用Python進行數據挖掘
- 6. 使用Neo4j進行數據挖掘
- 7. HTML數據挖掘
- 8. python數據挖掘
- 9. Kissmetrics數據挖掘
- 10. 通過SQL Analysis Services挖掘模型檢查/挖掘的前端應用程序
- 11. 是否有任何有用的並行數據挖掘應用程序?
- 12. 數據挖掘中引導的數據是什麼?
- 13. 用於MPI的數據挖掘庫
- 14. 我想挖掘使用TouchAction
- 15. 數據挖掘 - K近鄰
- 16. 休眠4數據挖掘
- 17. JSON到R數據挖掘
- 18. 數據挖掘字符串
- 19. hadoop的數據挖掘庫
- 20. 數據挖掘情況
- 21. R數據挖掘語法
- 22. 「相似性」數據挖掘
- 23. Google數據挖掘工具
- 24. 從數據挖掘開始
- 25. 數據挖掘教科書
- 26. 的Oracle SQL導航數據挖掘文本挖掘
- 27. 使用AOP的數據挖掘程序調用堆棧的可行性
- 28. 與sql server連接的數據挖掘最好的程序是什麼?
- 29. Heroku Rails應用程序的數據挖掘/統計分析選項?
- 30. 使用數據挖掘技術的定性數據分析
嗨...最好的是weka呢? – LB40 2009-06-04 01:23:00