2013-12-21 39 views
1

我要這樣從Web服務器下載整個目錄:如何使用wget忽略index.xml來下載整個目錄?

wget -r -nH https://something.com/blah/ 

但有下/胡說/一INDEX.XML,不具有正確的HREF到我要下載的文件。

因此,當我啓動上面的wget命令時,它只會下載index.xml並停止。

我無法修改或刪除index.xml文件,因爲/ blah /不屬於我。

是否有任何解決方法允許我下載整個目錄,而忽略index.xml的建議?

回答

1

man wget

Recursive Accept/Reject Options 
    -A acclist --accept acclist 
    -R rejlist --reject rejlist 
    Specify comma-separated lists of file name suffixes or patterns to accept 
    or reject. Note that if any of the wildcard characters, *, ?, [ or ], appear 
    in an element of acclist or rejlist, it will be treated as a pattern, rather 
    than a suffix. 

因此--reject xml應該解決您的問題。

+0

是否'--reject xml'不會拒絕任何具有'.xml'後綴的文件,而不僅僅是OP想要排除的特定'index.xml'文件? –

+0

是的,但如果這是一個問題,它很容易適應'index.xml'而不是它? –

+0

對不起,我沒有說清楚 - 下載索引。(xml/html)似乎是wget的默認行爲。 Wget需要找出哪些文件需要從中下載。所以無論我是否指定--reject index.xml,它總是被下載,並且其他文件仍然不被下載。另外,--reject index.xml仍會下載index.xml,但是會從本地刪除它。 – yzhang