-1
我需要使用Map-Reduce概念對單個文檔進行文本挖掘。關於文本挖掘的建議/幫助
我的一些朋友建議我使用Apache Lucene。
但是在瀏覽一些關於Apache Lucene的文檔之後,我發現它僅在我們需要索引文檔時纔有用。
任何人都可以提出任何更好的方法嗎?
謝謝你提前
我需要使用Map-Reduce概念對單個文檔進行文本挖掘。關於文本挖掘的建議/幫助
我的一些朋友建議我使用Apache Lucene。
但是在瀏覽一些關於Apache Lucene的文檔之後,我發現它僅在我們需要索引文檔時纔有用。
任何人都可以提出任何更好的方法嗎?
謝謝你提前
Lucene是一個文檔索引和檢索框架。當然,我們可以使用關鍵字搜索,文檔相似性等索引數據。
如果您對TM有興趣,可以看看OpenNLP和LingPipe。他們有100多個用於文本挖掘和自然語言處理的庫。
Apache Mahout是一個用於Hadoop的數據挖掘庫 – 2013-05-11 17:19:09