2
我總是使用「dfs -get」或「dfs -cat」,但我想可能會有更好的東西。使用「dfs -cat | pv」,看起來我的網絡連接不飽和(我只有20MB /秒)。有沒有辦法將它並行化,也許?將數據從Hadoop DFS傳輸到本地文件系統的最快方式是什麼?
我總是使用「dfs -get」或「dfs -cat」,但我想可能會有更好的東西。使用「dfs -cat | pv」,看起來我的網絡連接不飽和(我只有20MB /秒)。有沒有辦法將它並行化,也許?將數據從Hadoop DFS傳輸到本地文件系統的最快方式是什麼?
dfs -cat
必須通過該單一過程穿梭所有數據,並行性較差。
我所做的是運行一個只映射器的流式作業,該作業轉儲到每個磁盤上的臨時空間,然後rsync回到單臺機器。這兩個部分都充分發揮了集羣的作用;並且由於rsync很好地冪等,所以你可以在hdfs-> local部分的同時啓動它。
輝煌。感謝翻轉! – 2011-01-26 04:05:30