1
我在Lucene索引(索引不存儲在HDFS中)中有成千上萬的客戶名稱,替代名稱,商業名稱等詳細信息索引。Hadoop PIG作業中的Lucene查詢
我在HDFS中擁有大量(> 100M)的人員數據,我想用Lucene索引掃描人員數據,目前我正在使用PIG從HDFS進行數據處理。
我想查找是否有可能運行PIG作業,它提取數據並向Lucene索引執行查詢(可能是使用自定義寫入的UDF),我無法考慮Lucene本地索引如何加載並在PIG作業中共享(在Lucene查詢之後,如果找到匹配,我需要匹配的文檔ID)。
使用PIG有可能嗎?或者我需要爲此編寫自定義的map-reduce作業?還是有其他建議?
謝謝。
謝謝SNeumann,看起來像這樣會有所幫助,我不清楚如何從PIG作業中檢索查詢結果,我想我需要閱讀更多內容。 – Rushik 2013-04-30 16:16:44