2011-07-01 80 views
0

我正在使用Hadoop處理文本消息(SMS)。但我不確定預處理這些數據的最佳方法,以便我可以進行高效的搜索。例如,如果有人搜索'NY',那麼在預處理數據後,我將能夠顯示包含單詞'NY'的消息。 建議將預處理數據寫入xml文件而不寫入數據庫。使用Hadoop預處理文本消息的最佳方法

注意:我在.csv文件中有大約20萬條文本消息。

回答

0

轉到了 Solr(特別是用於文本挖掘)

  1. 功能強大的全文搜索

  2. 提供動態集羣

  3. 提供了數據庫集成,以及

  4. 支持.csv,.xml,word,pdf ..

  5. 高度可擴展性