Hadoop - 文件到塊映射

當JobTracker將映射任務分配給TaskTracker時，是否需要與NameNode進行通信？或者它可以從InputSplit本身獲取信息？當我查看代碼時，我看到InputSplits與BlockLocations打包在一起。 JobTracker會使用這些信息還是需要使用Namenode？Hadoop - 文件到塊映射

來源

2012-12-07 Suresh

客戶端計算拆分信息並將它們與拆分信息一起寫入HDFS。

您可以看看Hadoop 1.x JobSplit.SplitMetaInfo有序列化實現，也序列化的位置。

jobtracker只是選擇這些序列化並對它們進行調度，其中位置只是提示如果插槽可用時更快執行的提示。

來源

2012-12-07 08:28:51

謝謝托馬斯。所以，這只是一個提示？讓我們看看這個場景。比方說，JobTracker識別要運行的數據是否位於TaskTracker的本地驅動器上，是否會通知TaskTracker？或者TaskTracker會聯繫NameNode來識別這個？ – Suresh

沒有這樣的交流。 Jobtracker內部的調度程序將查看「SplitMetaInfo」，如果該位置有可用的槽，它將向tasktracker發送指令以運行具有該輸入的任務。 –

如果數據在機器中沒有（無DataLocal），它的責任是找到數據所在的機器？ TaskTracker是否需要與NameNode對話，還是可以使用元數據（包含塊位置）並直接與其他機器通信？ – Suresh

JobTracker確實聯繫NameNode以獲取塊位置。如果作業處理的塊數量非常大，此過程可能會花費一些時間。

來源

2012-12-07 04:02:06

謝謝唐納德。我的困惑與Job Tracker爲什麼要做到這一點有關，因爲InputSplit確實具有關於可以從中獲取數據的可能位置和主機的元數據。謝謝。 – Suresh

InputSplit實際上並不知道。它需要去NameNode找出。 –

Hadoop - 文件到塊映射

回答

相關問題