2013-08-16 53 views
8

以下內容無效。我不知道爲什麼它只停留在起始網址中,不要進入鏈接來搜索給定的文件類型。使用wget從網站下載特定類型的所有文件

的wget -r -A .PDF HOME_PAGE_URL

任何其他方式遞歸下載一個網站的所有PDF文件。 ?

+0

可能的複製[如何是錯的使用wget/curl下載指定網頁上的.zip文件的所有鏈接?](http://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a -given-web-page-using-wget-curl) – Seanny123

回答

1

它可能基於robots.txt。嘗試加入-e robots=off

其他可能的問題是基於cookie的身份驗證或代理拒絕wget。 See these examples.

編輯:在「.PDF」的點按sunsite.univie.ac.at

+0

試過但結果相同。它肯定不是基於cookie的網站。我可以下載使用python urllib遞歸地打開。可能日誌會幫助你。它基本上下載主頁說去除,因爲它應該被拒絕。然後點擊一個沒有鏈接並在那裏截取的頁面。希望法師的其他環節怎麼樣? – SoulMan

+0

試過了什麼?刪除點?忽略robots.txt?或模擬瀏覽器?或者全部都是? – rimrul

+0

嘗試刪除點並忽略機器人 – SoulMan

1

以下爲我CMD的作品,它會下載一個網站的圖片

wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/