Wget文件格式

我必須下載所有站點內容，然後解析下載的文件夾以查找「* .pdf」文件。我下載的網站使用wget -r --no-parent http://www.example.com/但問題是，有時鏈接看起來這Wget文件格式

http://www.foodmanufuture.eu/dpubs?f=K20

和dowloaded PDF下載名稱爲「dpubs？F = K20」和文件格式沒有指定，它看起來並不像這樣「dpubs？f = K20.pdf」，有沒有辦法檢查我在這個文件夾中有多少pdf文件？

來源

2017-02-12 Alexander Demichev

你可以使用命令

file filename

像這樣：

file pdfurl-guide 
pdfurl-guide: PDF document, version 1.5

你可以使用：

file *

確切地知道哪些文件的文件夾中的PDF文件

來源

2017-02-12 18:08:23

你有沒有試過--content-disposition的標誌？從手冊頁：

如果將此設置爲on，則啓用對「Content-Disposition」標頭的實驗性（非全功能）支持。這可能會導致額外往返服務器的「HEAD」請求，並且已知會遇到一些錯誤，這就是爲什麼默認情況下當前未啓用它的原因。 此選項對於某些使用「Content-Disposition」標頭的文件下載CGI程序來描述下載文件的名稱應該是。

因此，它試圖詢問服務器的文件名。我嘗試了你給的URL，它似乎工作。

來源

2017-02-12 18:13:27 CannibalGorilla

太棒了！謝謝！ –

回答

相關問題