2017-02-26 68 views
0

我將使用wget從服務器下載相當大量的數據(〜50-100 GB,幾千個文件)。這將會非常耗時,所以我想問一些關於性能的問題。wget大型下載性能,以及它爲什麼需要很長時間纔開始下載?

1)運行wget時,似乎有一個非常長的初始階段,沒有下載發生,然後突然啓動。這個階段似乎比實際下載明顯更長。 wget過程開始時會發生什麼,並且有什麼方法可以加速它?

在此階段沒有網絡活動,並且wget在top上似乎不是非常活躍。這可能與wget的-erobots=off選項有關嗎?

2)文件結構我要下載是像這樣:

.../main_dir/ 
    000001/ 
     file1 
     file2 
     ... 
    000002/ 
     ... 
    ... 

隨着main_dir含有大約50-100GB總。但是,如果我嘗試遞歸下載main_dir用這樣的命令:

wget -q -nH --cut-dirs=6 -r --level=7 -l0 -c -N -np -R 'index*' -erobots=off https:.../main_dir/ 

它不工作(它只是掛在那兒)。那是因爲對單個wget命令獲取的文件大小有限制?因爲如果main_dir包含大約〜10GB,則相同的命令有效。

另外,當嘗試從服務器下載100GB時,會有其他替代方法或任何特殊技巧嗎?

回答

0

如果有人仍然在尋找答案,這是我從那時起學到的。有確實是一個緩慢的索引步驟開頭,可以通過使用lftp和鏡像站點來避免:

lftp -e "mirror path/to/dir/; quit" site.url 

這是速度更快,並且還支持多流下載(請參閱文檔),從而結束了將大量傳輸的下載時間從12-24小時減少到大約1小時。

相關問題