2017-04-25 28 views
0

我正在創建一個腳本來刮掉網站中的大量html文件,但我希望它可以重複使用並且速度更快。所以在下載所有的html文件後,我再次運行它應該只是檢查如果html文件的內容是不同的,如果它不同,那麼它會下載的HTML,否則它會忽略它。wget/curl如果文件內容更改,如何覆蓋HTML文件?

這可能嗎?

我曾嘗試使用:

wget --no-clobber 

但​​只檢查文件是否存在。

回答

0

使用curl對URL進行HEAD請求(curl --head)。如果服務器返回Last-Modified頭(即Last-Modified: Tue, 15 Nov 1994 12:45:26 GMT)作爲響應,則將其與文件的上次更新日期進行比較以進一步確定。如果該標題不在響應中,則必須下載它。