0
我正在創建一個腳本來刮掉網站中的大量html文件,但我希望它可以重複使用並且速度更快。所以在下載所有的html文件後,我再次運行它應該只是檢查如果html文件的內容是不同的,如果它不同,那麼它會下載的HTML,否則它會忽略它。wget/curl如果文件內容更改,如何覆蓋HTML文件?
這可能嗎?
我曾嘗試使用:
wget --no-clobber
但只檢查文件是否存在。
我正在創建一個腳本來刮掉網站中的大量html文件,但我希望它可以重複使用並且速度更快。所以在下載所有的html文件後,我再次運行它應該只是檢查如果html文件的內容是不同的,如果它不同,那麼它會下載的HTML,否則它會忽略它。wget/curl如果文件內容更改,如何覆蓋HTML文件?
這可能嗎?
我曾嘗試使用:
wget --no-clobber
但只檢查文件是否存在。
使用curl對URL進行HEAD請求(curl --head
)。如果服務器返回Last-Modified頭(即Last-Modified: Tue, 15 Nov 1994 12:45:26 GMT
)作爲響應,則將其與文件的上次更新日期進行比較以進一步確定。如果該標題不在響應中,則必須下載它。