2013-05-09 106 views
-1

我需要使用Map-Reduce概念對單個文檔進行文本挖掘。關於文本挖掘的建議/幫助

我的一些朋友建議我使用Apache Lucene。

但是在瀏覽一些關於Apache Lucene的文檔之後,我發現它僅在我們需要索引文檔時纔有用。

任何人都可以提出任何更好的方法嗎?

謝謝你提前

+0

Apache Mahout是一個用於Hadoop的數據挖掘庫 – 2013-05-11 17:19:09

回答

0

Lucene是一個文檔索引和檢索框架。當然,我們可以使用關鍵字搜索,文檔相似性等索引數據。

如果您對TM有興趣,可以看看OpenNLP和LingPipe。他們有100多個用於文本挖掘和自然語言處理的庫。