我有一個網站從網站上抓取所有最新新聞的功能(約10條新聞和新聞數量由該網站決定)。請注意,該消息按照時間順序排列。從網站獲取新聞的最佳途徑?
例如,昨天我得到了10條新聞並保存在數據庫中。今天我得到10條消息,但有3條消息是昨天沒有的(7條消息保持不變,3條新消息)。
我目前的做法是提取每條新聞,直到找到一條舊新聞(7條新聞中的第一條),然後我停止提取,只更新舊新聞的字段"lastUpdateDate"
並向數據庫添加新消息。我認爲這種方法有點複雜,需要時間。
其實我從20個內容結構相同的網站(Moodle
)收到消息,所以每個請求將持續大約2分鐘,這是我的免費主機不支持的。
如果我刪除所有新聞,然後從一開始就提取所有內容(實際上會增加數據庫中大量的ID號),那麼它會更好嗎?
謝謝,我正在使用Simple Html-Dom Parser進行這項工作 – Silentbang
想到我想添加一個網站的條件條件,當涉及到網絡抓取時,並不意味着什麼,只是基本上是一個警告,他們可能會試圖阻止你/讓你更難以廢除。着作權是你需要擔心的事情,但如果你正在刮anything任何公開的知識或不聲稱它是你的創造性財產,它的公平遊戲,幾乎網絡上的所有信息在法律上都是可以廢棄的(我的信息基於一對夫婦最高法院判決,不能記住我頭頂的名字,我確信有一個很好的維基頁面) – Greg