2012-06-19 85 views
0

我需要一個分佈式文本聚類框架來支持具有完整文檔集的算法。像carrot2 http://project.carrot2.org/這樣的應用程序在內存計算中使用一組文檔,因此耗時且非常高效。如果像lingo,STC,knn等這樣的文本聚類算法可以在分佈式環境下運行,它們將會更快。 是否有任何框架使用開源工具,如hazelcast http://www.hazelcast.com/,或者是否有任何更快速和更高性能的特定方法?分佈式文本聚類框架

回答

0

Apache Mahout是你在找什麼。

+0

感謝您的回答......是的,您是對的,但我想它在Haadoop上運行良好,而且我正在尋找一種更簡單的解決方案,它可以在窗口上工作,形成一個集羣並以分佈式方式工作。 – Jagdeep

0

這樣做的工具很少,Mahout就是其中之一。 Mahout支持3種機器學習算法,推薦,聚類和分類。 Mahout在行動 manning的書做了很好的解釋。請參閱博客,該博客討論關於如何使用Mahout and Hadoop distributed file system works?的例子,該例子更側重於推薦引擎,但它也可以應用於羣集,如mahout在行動第7章中所述。作爲此的前身,我還寫了一個Component architecture這些工具如何適合數據挖掘問題。

Mahout將以獨立模式以及Hadoop工作。使用任何一個的決定都歸結爲需要挖掘的歷史數據的大小。如果數據大小的數量級別是千兆字節和千兆字節,則通常使用Mahout和Hadoop。 Weka是另一個類似的開源項目。所有這些都歸類爲機器學習框架。我希望它有幫助。