使用wget從網站下載特定類型的所有文件

以下內容無效。我不知道爲什麼它只停留在起始網址中，不要進入鏈接來搜索給定的文件類型。使用wget從網站下載特定類型的所有文件

的wget -r -A .PDF HOME_PAGE_URL

任何其他方式遞歸下載一個網站的所有PDF文件。？

2013-08-16 SoulMan

可能的複製[如何是錯的使用wget/curl下載指定網頁上的.zip文件的所有鏈接？]（http://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a -given-web-page-using-wget-curl） – Seanny123

它可能基於robots.txt。嘗試加入-e robots=off。

其他可能的問題是基於cookie的身份驗證或代理拒絕wget。 See these examples.

編輯：在「.PDF」的點按sunsite.univie.ac.at

來源

2013-08-16 13:39:05 rimrul

試過但結果相同。它肯定不是基於cookie的網站。我可以下載使用python urllib遞歸地打開。可能日誌會幫助你。它基本上下載主頁說去除，因爲它應該被拒絕。然後點擊一個沒有鏈接並在那裏截取的頁面。希望法師的其他環節怎麼樣？ – SoulMan

試過了什麼？刪除點？忽略robots.txt？或模擬瀏覽器？或者全部都是？ – rimrul

嘗試刪除點並忽略機器人 – SoulMan

以下爲我CMD的作品，它會下載一個網站的圖片

wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/

來源

2015-06-03 06:27:18 telehan

使用wget從網站下載特定類型的所有文件

回答

相關問題