0
我試圖將大量數據(幾千個文件總計高達19TB)複製到我的Hadoop集羣。我運行一個bash循環遍歷文件的子集和多個圈我跑得較慢的一切副本Hadoop多輸入命令放慢
for filename in /path/to/my/data/*.csv;
do cat $filename | ssh [email protected] "hadoop fs -put - /path/to/new/data/$filename";
done
當我走動集羣上的數據會發生同樣的問題,所以我不認爲它正在複製導致問題的網絡。
問題:Hadoop可以同時處理多個put
命令嗎?我期待的是什麼?
編輯:羣集規格:9個服務器,每個服務器4個磁盤,每個節點24TB可用。大約六打命令。
你有多少個Hadoop集羣中的服務器和磁盤?你運行了多少個並行'put'命令? – gudok
9個服務器,每個服務器4個磁盤,每個節點上可用24TB。大約六打「放」命令。 – Sal