2012-03-16 82 views
0

我需要在Python中創建用於在發生更改時監視網站的軟件。目前我有定期任務,並檢查以前版本的網站內容。有沒有更簡單的方法來檢查網站內容是否已更改,可能是最後一次更改的時間,以避免下載內容時間?獲取網站上的最後更改

回答

4

您可以使用HEAD HTTP方法,並在實際再次下載完整內容之前查看Date-ModifiedETag標題等。

然而,沒有什麼能保證當實體的(URL)內容發生變化時,服務器實際上會更新這些標頭,或者甚至可以正確地響應HEAD方法。

1

儘管它沒有回答你的問題,但我認爲值得一提的是,你不必存儲以前版本的網站來查找更改。你可以計算它的總和md5並存儲這個總和,然後計算它的新版本並檢查它們是否相等。

關於這個問題本身,AKX給了一個很好的答案 - 只要找到Date-Modified標題,但記住它不能保證工作。

+0

謝謝,我現在正在使用散列,但我需要下載內容以提供新的散列來與舊的進行比較,但問題在於內容太長時,我會監視很多網站。 – Damir 2012-03-16 14:03:31