2012-09-21 63 views
0

我有下面的數據集。我想獲得第一列的唯一列表作爲輸出。 {9719,382 ..}在每行的末尾都有整數,因此檢查它是否以數字開始並以數字結束不是一種方法,我也無法想到解決方案。你能告訴我怎麼做嗎?我真的很感激 ,如果你在細節表現出來。(在地圖上做什麼,做些什麼在減少步驟)使用Hadoop MapReduce從文本文件中的列中檢索唯一結果

id - - [date] "URL" 

回答

0

在你映射你應該分析每個線和寫出來的令牌您從該行的開頭(例如9719)開始對Key-Value對中的鍵(該值在此情況下不相關)感興趣。由於密鑰在發送到reducer之前會被排序,因此您需要在reducer中執行的操作是迭代通過值並每次更改值時輸出。

與Hadoop一起打包的WordCount example應用程序非常接近您所需的應用程序。

相關問題