2014-01-29 53 views
0

我知道我可以,只要在網頁是靜態的如何檢查動態網頁是否已更新?

wget -S http://www.staticpage.com 

檢查的最後修改時間。但是當對一個動態頁面做同樣的事情時,我總是會得到現在的時間。

那麼,問問一個網站時,如果頁面在任意時間以後或頁面上次更新時發生了變化,那麼侵入式方式是什麼?我顯然可以下載整個頁面,並與我保存在文件中的內容進行比較,但我想減少開銷。

+0

您只能信任修改日期服務器報告。使用動態頁面時,如果服務器始終報告當前時間,則無法檢測頁面何時被修改! – RaviH

回答

1

動態頁面逐字更新每個頁面加載。如果你想知道何時更新動態頁面,你需要查看頁面本身或頁面的RSS源。你最好的選擇通常是下載它並解析出最新帖子的最新日期。

UPDATE: 如果要限制數據的下載網頁,當你閱讀,你可以使用以下的量:

curl http://someurl.com | head -c 512 

Linux將停止從流中讀取和使用結束後,512個字節的請求這個。服務器要看到並停止傳輸。這可能會或可能不會發生,但至少您不會浪費更多帶寬。

+0

但是,我必須下載整個頁面嗎?我不能只是下載一個零件,一些字在這裏和那裏,看看它們是否與本地保存的舊文件匹配?這就像是頁面的指紋。 –

+0

查看我的更新以瞭解如何防止加載整個頁面。不幸的是,網絡上的大多數頁面都是動態的,因此大部分內容都是靜態的,因此大部分內容都會在主體中。 – krowe