2014-10-17 69 views
0

我想知道這些文件是如何在Hadoop中分割的。我的意思是,我知道它們被分割成一定的大小(例如64MB),但是是否會發生中斷,在行結尾還是某些字符等?Hadoop如何分割文件?

此外,名稱節點如何跟蹤文件被拆分的順序,比如如何在從數據節點收集這些文件後按順序組裝它們。

回答

1

LineRecordReader讀取每一行並將鍵/值對發送給映射器實例。
如果EOL出現在定義的塊大小(在本例中爲64MB)之前,則閱讀器繼續到下一行。
現在,如果讀取器達到塊大小而不是EOL,則它會繼續讀取,直到EOL並設置爲塊。
現在,下一個塊從讀者停止的地方開始(即,在EOL之後)。

Reference

+0

什麼是該塊大小在這種情況下,即,當延伸時未達到EOL極限 – Snehansu 2014-10-19 04:40:02