HDFS緩衝寫入/讀取操作

我正在使用HDFS Java API和FSDataOutput和FSDataInput流將文件寫入/讀取到4臺機器的Hadoop 2.6.0羣集。HDFS緩衝寫入/讀取操作

FS流實現有一個緩衝區大小構造函數參數，我假設是爲流的內部緩存。但它似乎對寫入/讀取速度完全沒有影響，無論它的值如何（我嘗試的值在8KB到幾MB之間）。

我想知道是否有某種方法可以實現緩衝寫入/讀取到HDFS集羣，這與將FSDataOutput/Input封裝到BufferedOutput/Input流不同？

2015-05-29 Kris

你如何測量讀寫速度？ – kostya

通過測量寫入/讀取給定文件所需的時間。速度=文件大小/時間[MB /秒] – Kris

我找到了答案。

的BUFFERSIZE參數FileSystem.create的（）實際上是io.file.buffer.size正如我們可以從文檔讀取爲：

「的按順序使用緩衝器的大小文件，這個緩衝區的大小應該是硬件頁面大小的倍數（Intel x86上的4096），它決定了在讀寫操作期間有多少數據被緩衝。

從「Hadoop：權威指南」一書中我們可以知道，一個好的起點是將其設置爲128KB。

至於客戶端的內部緩存：Hadoop以數據包的形式傳輸數據（默認大小爲64KB）。可以使用Hadoop hdfs-site.xml配置中的dfs.client-write-packet-size選項調整此參數。爲了我的目的，我使用了4MB。

2015-06-02 06:48:20 Kris

回答