我正在使用Hadoop處理文本消息(SMS)。但我不確定預處理這些數據的最佳方法,以便我可以進行高效的搜索。例如,如果有人搜索'NY',那麼在預處理數據後,我將能夠顯示包含單詞'NY'的消息。 建議將預處理數據寫入xml文件而不寫入數據庫。使用Hadoop預處理文本消息的最佳方法
注意:我在.csv文件中有大約20萬條文本消息。
我正在使用Hadoop處理文本消息(SMS)。但我不確定預處理這些數據的最佳方法,以便我可以進行高效的搜索。例如,如果有人搜索'NY',那麼在預處理數據後,我將能夠顯示包含單詞'NY'的消息。 建議將預處理數據寫入xml文件而不寫入數據庫。使用Hadoop預處理文本消息的最佳方法
注意:我在.csv文件中有大約20萬條文本消息。
將預處理數據導入hdfs的方式是首先將數據(您的案例中的csv文件)導入到數據庫中,然後創建一個表格視圖,以便根據需要對其進行微調。然後我使用Sqoop將數據導入hdfs。在sqoop更多信息可以在這裏
http://www.cloudera.com/blog/2009/06/introducing-sqoop/
從數據庫做一個sqoop進口發現看一看
http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html#_connecting_to_a_database_server
你可能想索引的短信,也許使用的東西如Lucene。
轉到了 Solr(特別是用於文本挖掘)
功能強大的全文搜索
提供動態集羣
提供了數據庫集成,以及
支持.csv,.xml,word,pdf ..
高度可擴展性