2012-06-01 46 views
0

我正在尋找hadoop示例,比wordcount示例更復雜的東西。從目錄讀取文件創建一個ZIP hadoop

我想做的事情它讀取hadoop目錄中的文件並獲取一個zip文件,因此我曾想過要收集map類中的文件並在reduce類中創建zip文件。

任何人都可以給我一個教程或例子的鏈接,可以幫助我建立它嗎?

我不想讓別人爲我做這個,我要求與比wordaccount更好的例子的鏈接。

我幾乎得到它,如果你需要它:https://github.com/flopezluis/testing-hadoop

由於@markkerzner

+0

你需要嘗試,我們將很樂意幫助 – Satya

+0

:)這就是我正在做的,謝謝你這麼好。我正在做這樣的類MapClass擴展MapReduceBase implements \t \t \t Mapper 。這個想法來自於我的文件有文本,這就是爲什麼第二個參數是文本,最後一個是CompressedWritable。再次,我真的很感激你的性格。 Stackoverflow就是因爲這個。 –

+2

你需要創建多少個文件/ zip文件?我不確定這是一個適合地圖減少看到的問題,因爲所有文件都需要到一臺機器上來構建zip。現在,如果你有1000個目錄,並且你需要將每個目錄壓縮到它自己的zip文件中,那更合適。 –

回答

0

如果你的目標是向正常化記錄結構化數據,從幾個輸入,然後進來處理它。基於它,我認爲你真的需要看看過去幫助我的this article。它包括如何以標準化數據使用的Hadoop/MapReduce和提供Java作爲以下,基於源代碼:

  • 步驟1:從原始數據提取的列值對。
  • 步驟2:提取物列值對未在主ID文件
  • 步驟3:計算所述最大的ID爲在主文件的每一列
  • 步驟4:計算一個新的ID爲不匹配的值
  • 第5步:合併新的ID與現有的主標識
  • 第6步:使用標識

替換原始數據中的值沒有爲閱讀與寫作總體記錄結構有關方法的另一個例子在JAVA中使用新的Writable和InputFormat類的文件。看看here

相關問題