我想了解如何監測網站的變化作品,以及它背後使用的概念。 我可以考慮創建一個抓取整個網站的抓取工具,將抓取的網頁與數據庫中的一個商店進行比較,如果網頁已更新,則將其覆蓋在html中的舊頁面,或者如果該網頁不存在,則將其存儲在數據庫中。 所以這裏是我的問題: 1-如何比較2個網頁,如果他們是相同的?我是否需要按字符比較網頁字符的字符串等值? 2-我是否需要抓取整個網站?讓我們假設一個網站的HTML頁面大小爲5Gb,我想每小時檢測一次該網站的變化,因此每小時爬行和下載5Gb數據將消耗大量帶寬。網站監控如何工作?
我可以編寫代碼,我只想知道用於監控網站的一般做法。
非常感謝。
我認爲它使用最後修改標頭確定任何更改。如果有抓取請求,它會再次抓取它。 –