2015-10-22 64 views
0

我正在處理一個大數據項目(cloudera環境),其中來自多個數據源的所有數據都在Hadoop中加載。現在,我有一組包含大量文本的.pdf,.jpeg文件。我想根據存儲在HDFS中的數據搜索這些文件的內容。任何人都可以告訴我哪個庫/框架可以用於我的項目..?我開始瞭解Apach Solr,它似乎很有趣,但想知道是否有任何其他工具可用於我的項目。Hadoop大數據文件文本搜索

任何意見/建議將不勝感激。

謝謝!

回答

0

看起來您需要搜索圖像處理框架,然後將該數據轉換爲solr。像

+0

感謝您的輸入! – user2812535