我需要一個分佈式文本聚類框架來支持具有完整文檔集的算法。像carrot2 http://project.carrot2.org/這樣的應用程序在內存計算中使用一組文檔,因此耗時且非常高效。如果像lingo,STC,knn等這樣的文本聚類算法可以在分佈式環境下運行,它們將會更快。 是否有任何框架使用開源工具,如hazelcast http://www.hazelcast.com/,或者是否有任何更快速和更高性能的特定方法?分佈式文本聚類框架
0
A
回答
0
Apache Mahout是你在找什麼。
0
這樣做的工具很少,Mahout就是其中之一。 Mahout支持3種機器學習算法,推薦,聚類和分類。 Mahout在行動 manning的書做了很好的解釋。請參閱博客,該博客討論關於如何使用Mahout and Hadoop distributed file system works?的例子,該例子更側重於推薦引擎,但它也可以應用於羣集,如mahout在行動第7章中所述。作爲此的前身,我還寫了一個Component architecture這些工具如何適合數據挖掘問題。
Mahout將以獨立模式以及Hadoop工作。使用任何一個的決定都歸結爲需要挖掘的歷史數據的大小。如果數據大小的數量級別是千兆字節和千兆字節,則通常使用Mahout和Hadoop。 Weka是另一個類似的開源項目。所有這些都歸類爲機器學習框架。我希望它有幫助。
相關問題
- 1. 分佈式分層聚類
- 2. 分佈式緩存框架
- 3. 分佈式算法框架
- 4. 分佈式本地聚類係數算法(MapReduce/Hadoop)
- 5. Clojure/Java的分佈式計算框架
- 6. 分佈式映射/減少框架
- 7. 分佈式交易聚合
- 8. 文本聚類
- 9. iOS的文本佈局框架
- 10. $劃分聚合框架問題
- 11. 鳳凰框架分佈
- 12. Bigquery - 文本聚類
- 13. 文本文件聚類
- 14. 小文本的文本分析和聚類
- 15. 倉庫模式聚合和聚合根與實體框架4.0
- 16. 分佈式組件和類的版本
- 17. 實體框架 - 驗證文本格式
- 18. Web框架的分類?
- 19. 分散式會員框架
- 20. Java文本聚類庫
- 21. 聚合框架MongoDB的
- 22. Django的聚合框架
- 23. MongoDB中的聚合框架
- 24. 與聚合框架哈希
- 25. 日期聚合框架
- 26. MongoDB和聚合框架
- 27. 聚類分類和聚類政策
- 28. 聚類或分類?
- 29. 分層凝聚聚類
- 30. 如何在MongoDB聚合框架中進行區分和分組?
感謝您的回答......是的,您是對的,但我想它在Haadoop上運行良好,而且我正在尋找一種更簡單的解決方案,它可以在窗口上工作,形成一個集羣並以分佈式方式工作。 – Jagdeep