使用NCrawler運行增量爬網

當我們在SOLR中使用NCrawler時，有什麼方法可以運行增量爬行和索引？我不希望抓取工具每次抓取時都抓取完整的數據。有沒有什麼辦法可以使抓取過程更加有效？使用NCrawler運行增量爬網

在此先感謝。

2013-03-21 Anu

NCrawler沒有內置任何內容。您將需要創建自己的處理來處理此問題。但是，可擴展的IPipelineStep機制將允許您創建任何您想要的爬網過程。例如，您可以將每個訪問過的URL存儲在數據庫中，同時將頁面內容的散列值一起存儲，以確定頁面何時更改並僅將更改後的頁面處理到索引。

2013-03-21 12:11:38

雅，謝謝@Paige Cook :)你救了我的命！：D – Anu 2013-03-21 13:02:26

是否可以使用NCrawler訪問受密碼保護的數據（如果我們有證書）？ – Anu 2013-03-22 04:19:01

是的，這是可能的。您將需要創建一個從WebDownloaderV2派生的類。以下是一些示例代碼，顯示如何通過授權Cookie ... https://gist.github.com/paigecook/5221158 – 2013-03-22 13:15:59

回答