Webpage包含一個link to a pdf(注意不同的域)。wget「鏡像」pdf鏈接到不同的域
我可以使用wget直接下載pdf,但似乎無法確定正確的wget命令行選項以「鏡像」包括此鏈接的pdf在內的網頁。我嘗試沒有成功使用的選項組合就像
- -p
- --span主辦
- -D
- --accept
。
可以使用wget(或其他一些命令行工具)下載鏈接的pdf-s嗎?
感謝
Webpage包含一個link to a pdf(注意不同的域)。wget「鏡像」pdf鏈接到不同的域
我可以使用wget直接下載pdf,但似乎無法確定正確的wget命令行選項以「鏡像」包括此鏈接的pdf在內的網頁。我嘗試沒有成功使用的選項組合就像
。
可以使用wget(或其他一些命令行工具)下載鏈接的pdf-s嗎?
感謝
雖然在瀏覽器中顯示PDF鏈接,頁面的源代碼中不包含下載鏈接。所以wget
沒有看到/遵循鏈接,因爲它並不真正「處理」頁面。
嘗試解析http://www.yowconference.com.au/brisbane/data/35.js。 (我用HttpFox發現了這個URL。)在格式化代碼之後(例如用http://jsbeautifier.org/)很容易就可以清除pdf文件的URL。