0
我有一個分層目錄,每個目錄中有很多文件,並且每個文本文件中都有很多URL字符串。我想要在Hadoop中的所有文件中下載所有URL以獲得更好的平衡。例如,如果我有1 + 5個節點Hadoop集羣和5個URL,那麼是5個URL合一文件或1個URL每個文件(然後獲取5個文件)作爲輸入獲得更好的平衡?如何拆分輸入集以獲得更好的Hadoop餘額?
我認爲Hadoop會默認將輸入集合分割爲64M塊來運行在單個節點上,不能運行全部5個從站。
謝謝你的回答!