我正在嘗試編寫一個抓取工具來抓取包含大約15 GB數據的網站的信息。我抓取信息並將其存儲在我的數據庫中。現在每週新網頁都會繼續添加到網站中,同時舊網頁也會更新。這是否意味着我必須重新抓取整個15 GB的數據,並且每次編輯時都要重新構建我的數據庫。處理這個問題最簡單的方法是什麼? Google新聞如何運作,是因爲他們面臨類似的信息在全球範圍內更新的問題?到現在我已經找到關於這一主題的下列研究論文:新的動態數據抓取
http://oak.cs.ucla.edu/~cho/papers/cho-tods03.pdf
而且是它總是需要編寫自定義履帶用於這一目的?不能使用Scrapy或Nutch?
個人而言,在我的抓取工具中,我優先抓取新頁面,重新抓取已更新的舊頁面。我以我只需要在頁面更改時部分更新數據庫的方式編寫代碼。 – goat
,但想象你正在從像imdb這樣的網站上抓取一些數據,每天收視率變化,新電影不斷增加......你如何處理這個問題? –
對不起,我沒有看到問題是什麼?大多數爬蟲不得不處理更新... – goat