2013-04-30 87 views
1

我在Lucene索引(索引不存儲在HDFS中)中有成千上萬的客戶名稱,替代名稱,商業名稱等詳細信息索引。Hadoop PIG作業中的Lucene查詢

我在HDFS中擁有大量(> 100M)的人員數據,我想用Lucene索引掃描人員數據,目前我正在使用PIG從HDFS進行數據處理。

我想查找是否有可能運行PIG作業,它提取數據並向Lucene索引執行查詢(可能是使用自定義寫入的UDF),我無法考慮Lucene本地索引如何加載並在PIG作業中共享(在Lucene查詢之後,如果找到匹配,我需要匹配的文檔ID)。

使用PIG有可能嗎?或者我需要爲此編寫自定義的map-reduce作業?還是有其他建議?

謝謝。

回答