我可以將本地文件的內容傳遞給Hadoop Pipes作業

我需要使用存儲在本地文本文件中的信息初始化映射器中的對象。有沒有這樣的機制？我可以將本地文件的內容傳遞給Hadoop Pipes作業

您可以將文件上傳到HDFS，然後將其添加到分佈式緩存中，使其可供映射器從工作目錄加載。

上傳本地文件到HDFS並把它在分佈式緩存由通用-files選項處理

hadoop pipes -files localfile.txt <other pipes options>

現在加載在你的映射文件，只需打開一個文件（你可以假設意志在當前工作目錄中）具有相同名稱（localfile.txt）。

2012-10-10 10:50:48

'無法識別的選項：-files' – Inverse

@反向 - 良好的捕獲，將管道放在-files選項之前 –

將文件本地存儲在客戶端上。閱讀並序列化它並將其添加到Job conf對象中。在映射器和減速器的設置方法中，從conf對象中讀取值並反序列化它。

COnf對象只存儲字符串。因此，您需要在序列化時將其轉換爲String對象。

2014-05-30 05:47:10 Kranthi

回答