2012-11-15 350 views
2

我正在尋找一種方法(不是庫或框架,因爲我似乎找不到)來檢測網頁內容中的更改。我查看了類似Tracking changes to web page content的帖子和白皮書(http://shodhganga.inflibnet.ac.in/bitstream/10603/2415/14/14_chapter%205.pdf),但無法找出一個好方法。檢測網頁內容中的更改

我不認爲網頁內容的md5是有用的,因爲大多數網頁的內容會根據您的請求發生輕微變化(例如,如果他們硬編碼當天的日期)。

此外,我想找出一種方法來確定什麼內容已經發生了實際變化(例如,運行差異化的內容看起來是不夠的,但我首先需要弄清楚哪些內容是不同的)。

http://www.changedetection.com/這似乎做得很好。 任何方法或想法或鏈接,將不勝感激。

謝謝。

+0

你最終找出解決方案嗎? –

回答

0

HTTP Last-Modified和ETag標題可能是一種方法。但是,如果您抓取的網頁沒有實現它們,則會留下文本相似性檢測結果。