2017-06-28 105 views
0

我注意到在每次Nutch抓取過程中,發送到Solr的索引都不一致。有時會顯示網頁的最新更改,有時會顯示較舊的更改。Nutch抓取 - 在每個抓取影響中刪除分段

原因

注意到,Nutch的是從一箇舊的到Solr給索引。

目前的解決方案

刪除讀取前所有舊片段,似乎解決問題。

問題

想知道是否有或這種方法的任何影響我的理解,這是不正確。還想知道爲什麼Nutch不會在抓取過程中自動刪除舊版細分。

謝謝。

回答

0

如果多個分段(再次)被編入索引並且兩個或更多分段中包含相同的分段,則不保證對最新版本進行索引。這是一個已知的問題(NUTCH-1416)。最簡單的解決方案是僅將最近獲取的片段發送給索引器。腳本bin/crawl這樣做,索引步驟在本週期中獲取的分段的每個週期結束時完成。