2011-06-09 33 views
0

我已經編寫了一個由兩個map-reduce階段組成的map-reduce應用程序。Hadoop - 在鏈中多個作業之間共享文件

二進制輸入文件 - > M1-> R1 - >平方米 - > R2 - >由所述第二減速器所需文本輸出

輸入文件到我的應用程序包含數據的一個小塊(< 1K) (R2)。我寫了一個自定義記錄讀取器來提取這些數據,但是如何將這些數據傳遞給下一個工作?看起來這是分佈式緩存的一項工作,但似乎分佈式緩存緩存文件被限定爲單個作業的暫存空間。在同一鏈中不同職位之間共享小數據的最佳方式是什麼?

回答

0

試試hadoop with -files選項 我在過去和以前的類似問題和-files選項爲我工作。 看一看here

+0

我以前使用過-files選項,問題在於我想共享的文件是由map-reduce管道的第一個階段生成的。換句話說,我沒有可用的文件在客戶端能夠在命令行上使用-file選項。 – 2011-06-10 14:22:46