Hadoop PIG作業中的Lucene查詢

2013-04-30 87 views 1 likes

我在Lucene索引（索引不存儲在HDFS中）中有成千上萬的客戶名稱，替代名稱，商業名稱等詳細信息索引。Hadoop PIG作業中的Lucene查詢

我在HDFS中擁有大量（> 100M）的人員數據，我想用Lucene索引掃描人員數據，目前我正在使用PIG從HDFS進行數據處理。

我想查找是否有可能運行PIG作業，它提取數據並向Lucene索引執行查詢（可能是使用自定義寫入的UDF），我無法考慮Lucene本地索引如何加載並在PIG作業中共享（在Lucene查詢之後，如果找到匹配，我需要匹配的文檔ID）。

使用PIG有可能嗎？或者我需要爲此編寫自定義的map-reduce作業？還是有其他建議？

謝謝。

2013-04-30 Rushik

回答

您肯定需要UDF - 大象鳥的lucene裝載機是一個很好的起點。檢查出https://github.com/kevinweil/elephant-bird/tree/master/pig

2013-04-30 08:03:39 SNeumann

謝謝SNeumann，看起來像這樣會有所幫助，我不清楚如何從PIG作業中檢索查詢結果，我想我需要閱讀更多內容。 – Rushik 2013-04-30 16:16:44

相關問題