3
我想在java中使用hadoop實現交叉連接。連接的兩邊都足夠大,以至於我無法將它們中的任何一個留在記憶中。我已經嘗試了幾件事情,雖然我意識到PIG /蜂巢可能更容易,但我想實現它原生的Java。在hadoop中實現交叉連接
我認爲CompositeInputFormat
可能是這樣做的方式,但我一直沒能找到任何示例代碼。
我試圖發送標記數據到SequenceFileInputFormat
,並厭倦了使用Reducer
來加入數據,但它也沒有工作。 (如果這是正確的方法,我可以提供更多細節)。
有一些示例代碼,我可以看看嗎?
aha!這本書中的例子就是我正在尋找的東西。謝謝。 –
我認爲Oreilly Hadoop的書是一個很好的學習資源和參考。我強烈建議給每個使用Hadoop的人。 –
我想我會拿到這本書。 –