2013-03-21 34 views
1

當我們在SOLR中使用NCrawler時,有什麼方法可以運行增量爬行和索引?我不希望抓取工具每次抓取時都抓取完整的數據。有沒有什麼辦法可以使抓取過程更加有效?使用NCrawler運行增量爬網

在此先感謝。

回答

2

NCrawler沒有內置任何內容。您將需要創建自己的處理來處理此問題。但是,可擴展的IPipelineStep機制將允許您創建任何您想要的爬網過程。例如,您可以將每個訪問過的URL存儲在數據庫中,同時將頁面內容的散列值一起存儲,以確定頁面何時更改並僅將更改後的頁面處理到索引。

+0

雅,謝謝@Paige Cook :)你救了我的命! :D – Anu 2013-03-21 13:02:26

+0

是否可以使用NCrawler訪問受密碼保護的數據(如果我們有證書)? – Anu 2013-03-22 04:19:01

+1

是的,這是可能的。您將需要創建一個從WebDownloaderV2派生的類。以下是一些示例代碼,顯示如何通過授權Cookie ... https://gist.github.com/paigecook/5221158 – 2013-03-22 13:15:59