1 這裏是正在考慮的事情: 如何屬於同一主機很多網址可以被抓取的鏈接 的成績。 是否達到了URL的重新獲取時間? 來源 2012-04-03 15:29:19 +0 我有兩個網站在nutch 2.1中抓取,但只有一個網站正在抓取。第二個網站如何與第一個網站一起抓取?我已經將這兩個網站都添加到了正則表達式urlfilter文件中,但第二個網站只有20個網址,而第一個網站已經有大約16k個網址已經提取,而獲取的新網址僅來自第一個網站。 – peter 2013-01-05 11:03:40 +0 @peter可能有幾個因素..是第二個有嚴格機器人限制的網站嗎?在獲取HTTP響應/內容如ReadTimeOut,Socket等問題時是否有任何異常?是否有第二主機有資格獲取?那些被提取出來的那些可以產生出鏈?在第二臺主機上運行單獨的本地模式抓取並檢查日誌,分段和crawldb將有助於找出問題 – 2013-01-05 23:46:33 +0 第二個站點有更多不被允許的目錄,但我不認爲它會影響抓取。有大約180個網址是無法取得的。我如何運行單獨的本地模式爬網?我正在使用MySQL,因此段和crawldb文件夾不存在。 – peter 2013-01-12 10:16:39
我有兩個網站在nutch 2.1中抓取,但只有一個網站正在抓取。第二個網站如何與第一個網站一起抓取?我已經將這兩個網站都添加到了正則表達式urlfilter文件中,但第二個網站只有20個網址,而第一個網站已經有大約16k個網址已經提取,而獲取的新網址僅來自第一個網站。 – peter 2013-01-05 11:03:40
@peter可能有幾個因素..是第二個有嚴格機器人限制的網站嗎?在獲取HTTP響應/內容如ReadTimeOut,Socket等問題時是否有任何異常?是否有第二主機有資格獲取?那些被提取出來的那些可以產生出鏈?在第二臺主機上運行單獨的本地模式抓取並檢查日誌,分段和crawldb將有助於找出問題 – 2013-01-05 23:46:33
第二個站點有更多不被允許的目錄,但我不認爲它會影響抓取。有大約180個網址是無法取得的。我如何運行單獨的本地模式爬網?我正在使用MySQL,因此段和crawldb文件夾不存在。 – peter 2013-01-12 10:16:39