1
在Hadoop數據的混洗階段,映射數據根據reducer的分區跨簇 的節點傳輸。 Hadoop使用什麼協議在reduce節點上執行節點間的數據混洗?Hadoop shuffle使用哪種協議?
在Hadoop數據的混洗階段,映射數據根據reducer的分區跨簇 的節點傳輸。 Hadoop使用什麼協議在reduce節點上執行節點間的數據混洗?Hadoop shuffle使用哪種協議?
我真的第一次笑了,但整個shuffeling和合並是由HTTPServlet
完成。
您可以在匿名類的Tasktrackers
源代碼中看到此內容MapOutputServlet
它獲取帶有任務和作業ID的HTTP請求,然後它將傳入的輸入流傳輸到磁盤上的本地文件系統。
HTTP效率低下嗎?有什麼選擇? –
RPC將是一種替代方案? – seahorse
是的,RPC將是一種替代方案。一位同事拋出了網絡堆棧針對HTTP使用進行了優化(真的?),所以這可能會更快。但我認爲你應該在郵件列表上詢問爲什麼他們選擇HTTP而不是其他任何東西。 –