分佈式文本聚類框架

我需要一個分佈式文本聚類框架來支持具有完整文檔集的算法。像carrot2 http://project.carrot2.org/這樣的應用程序在內存計算中使用一組文檔，因此耗時且非常高效。如果像lingo，STC，knn等這樣的文本聚類算法可以在分佈式環境下運行，它們將會更快。是否有任何框架使用開源工具，如hazelcast http://www.hazelcast.com/，或者是否有任何更快速和更高性能的特定方法？分佈式文本聚類框架

來源

2012-06-19 Jagdeep

Apache Mahout是你在找什麼。

來源

2012-06-20 17:52:00

感謝您的回答......是的，您是對的，但我想它在Haadoop上運行良好，而且我正在尋找一種更簡單的解決方案，它可以在窗口上工作，形成一個集羣並以分佈式方式工作。 – Jagdeep

這樣做的工具很少，Mahout就是其中之一。 Mahout支持3種機器學習算法，推薦，聚類和分類。 Mahout在行動 manning的書做了很好的解釋。請參閱博客，該博客討論關於如何使用Mahout and Hadoop distributed file system works？的例子，該例子更側重於推薦引擎，但它也可以應用於羣集，如mahout在行動第7章中所述。作爲此的前身，我還寫了一個Component architecture這些工具如何適合數據挖掘問題。

Mahout將以獨立模式以及Hadoop工作。使用任何一個的決定都歸結爲需要挖掘的歷史數據的大小。如果數據大小的數量級別是千兆字節和千兆字節，則通常使用Mahout和Hadoop。 Weka是另一個類似的開源項目。所有這些都歸類爲機器學習框架。我希望它有幫助。

來源

2012-06-30 19:21:33 Krishna

分佈式文本聚類框架

回答

相關問題