2017-10-16 63 views
-1

我試圖下載每週添加到網站的最新文件。問題在於文件url有一些不是很複雜的散列,準確地說是10^5到10^6之間的數字。我已經寫了一個簡單的bash腳本來嘗試所有的組合。這就是爲什麼我得到的錯誤參數列表太長。但99%的鏈接無效,所以也許有辦法繞過這個。 這是我的腳本看起來像:wget參數列表的Bash腳本太長

#!/bin/bash 
for i in `seq 1 10`; 
do 
    fileno="0$i" 
    wget --continue --timestamping --directory-prefix=photos/ http://sampleurl.com/file$fileno.{99999..1000000}.jpeg 
done 
for i in `seq 10 25`; 
do 
    wget --continue --timestamping --directory-prefix=photos/ http://sampleurl.com/file$i.{99999..1000000}.jpeg 
done 
+4

哇。智能網站將會扼殺或阻止你的連接,成爲非常非常糟糕的蜘蛛。 – jdv

+1

使用* lftp *,或在DOM中搜索文件。 – 0andriy

+0

另外,請注意,如果您想成爲_less_討厭的人,您可以使用wget向服務器詢問上次修改時間。 – jdv

回答

0

您可以使用for循環:

for i in {99999..1000000}; do 
    wget ... 
done 

當然你也可以通過wget'ing多個文件不超過命令行長度的限制優化。