2013-04-22 18 views
1

我有一個問題在regardes從網站上刪除內容。讓我們想象一下,在這個例子中,我們正在討論分類風格網站上的內容,例如Amazon或Ebay。 有關此內容的重要說明是,它可以更改,並且可以將其刪除。全面或增量報廢 - 人們使用什麼?

我看到它的方式,我有兩個選擇:

  1. 每天都在一個完整的新鮮擦痕。我以空白 數據庫模式開始新的一天,並每天完全重新設置每個站點,並將內容插入到新數據庫中。

  2. 增量刮,因此我開始與該是內容 昨天劃傷,rescrapping的網站時,我請執行下列操作:

    Check existing URL  
         Content is still online and is it the same - Leave in DB       
         Content is not availiable - Delete from DB  
         Content is different - Rescrape content 
    

我的問題是,是增加了複雜性做增量刮擦實際上是值得的,這有什麼好處嗎?我真的很喜歡每天做一個新鮮刮板的簡單性,但這是我第一次抓取項目,我真的很想知道報廢專家在這樣的場景中做什麼。

+0

亞馬遜或Ebay的日常全面刮?對我來說聽起來不太現實。 – pguardiario 2013-04-22 23:31:02

回答

2

我認爲答案取決於你如何使用你已經刮掉的數據。有時增加的複雜性是值得的,有時不是。 問問你自己:我的刮刀有什麼要求,爲了滿足這些要求,我需要做的最少的工作是什麼?

例如,如果您爲了研究目的而拼命工作,並且每天都會更容易地做一次新的刮擦,那麼這可能是您想要採取的措施。

正如你所說的那樣,執行增量式刮擦確實是更復雜的實現,因爲你需要確保你已經改變了正確處理的內容(不變,更改,刪除)。只要確保你也有一個處理新內容的方法。

這就是說,有理由爲什麼增量刮擦可能是合理的,甚至是必要的。例如,如果您在刮取的數據之上構建某些東西,並且由於主動刮取工作而無法承受停機時間,則可能需要考慮增量刮取。

還要注意的是,不僅僅有一種實現增量擦除的方法:可以實現多種增量擦除。例如,您可能希望優先考慮某些內容而不是其他內容,例如更新流行內容的頻率比不流行的頻率更高。這裏的事情是,你可以給刮刀添加多少複雜性沒有上限。事實上,人們可以將搜索引擎抓取工具視爲非常複雜的增量鏟運工。