我正在構建一個小應用程序,它將抓取內容正在增長的站點(就像在stackoverflow上一樣),區別在於一旦創建的內容很少被修改。兩次不抓取相同的內容
現在,我在第一遍中檢索網站中的所有頁面。
但接下來,該網站的分頁內容 - 我不想重新抓取所有這些,只是最新的補充。
因此,如果該網站有500頁,第二次通過,如果該網站有501頁,那麼我只會抓取第一頁和第二頁。這是處理這種情況的好方法嗎?
最終,抓取的內容將以lucene結尾 - 創建一個自定義搜索引擎。
所以,我想避免多次瀏覽相同的內容。任何更好的想法?
編輯:
比方說,該網站有一個頁面:結果會像這樣來訪問:??
結果頁面= 1,結果頁= 2 ...等
我想保持跟蹤最後一次抓取時有多少頁面,只抓取差異就足夠了。 (也許使用頁面上每個結果的散列 - 如果我開始跑到相同的散列 - 我應該停止)
我不確定問題是什麼,真的。 – Artelius 2009-11-08 12:07:01
如果您認爲內容將永遠不會被修改,您如何期待新的可抓取鏈接出現? – Thomas 2009-11-08 12:08:45
除了托馬斯說的之外,這種方法並沒有考慮到插入後內容可能會改變。把它放在這裏,想想有很多答案的問題,其中澄清來源於對原始問題的修改... – em70 2009-11-08 14:43:07