2014-12-04 38 views
0

我經歷了cloudera博客,並收到了一篇文章(下面的鏈接)。請參閱第三點。通過記錄讀取器讀取虛線

http://blog.cloudera.com/blog/2011/01/lessons-learned-from-clouderas-hadoop-developer-training-course/

按我的理解,如果有2次輸入分裂,那麼虛線將第一輸入分離的記錄讀者閱讀。

如果我得到它是正確的,你能告訴我它是怎麼做的,即第一次拆分的記錄讀取器如何讀取輸入拆分後的虛線?

回答

1

根據我的理解,如果有2個輸入拆分,那麼虛線將由第一個輸入拆分的記錄讀取器讀取。

是的,這是正確的。

你能告訴我這是如何如何,即先拆的記錄閱讀器讀取虛線過去輸入分流

InputSplit不包含原始數據,而是提取數據所需的信息。 A FileInputSplit(這就是你所指的)包含文件的路徑以及要在文件中讀取的字節偏移量。然後到RecordReader出去讀取數據。這意味着它可以讀取通過分割定義的結束字節偏移量。

+0

聽起來合乎邏輯..現在很清楚..謝謝男人! – 2014-12-05 16:48:13