我有一個問題在regardes從網站上刪除內容。讓我們想象一下,在這個例子中,我們正在討論分類風格網站上的內容,例如Amazon或Ebay。 有關此內容的重要說明是,它可以更改,並且可以將其刪除。全面或增量報廢 - 人們使用什麼?
我看到它的方式,我有兩個選擇:
每天都在一個完整的新鮮擦痕。我以空白 數據庫模式開始新的一天,並每天完全重新設置每個站點,並將內容插入到新數據庫中。
增量刮,因此我開始與該是內容 昨天劃傷,rescrapping的網站時,我請執行下列操作:
Check existing URL Content is still online and is it the same - Leave in DB Content is not availiable - Delete from DB Content is different - Rescrape content
我的問題是,是增加了複雜性做增量刮擦實際上是值得的,這有什麼好處嗎?我真的很喜歡每天做一個新鮮刮板的簡單性,但這是我第一次抓取項目,我真的很想知道報廢專家在這樣的場景中做什麼。
亞馬遜或Ebay的日常全面刮?對我來說聽起來不太現實。 – pguardiario 2013-04-22 23:31:02