2012-01-27 26 views

回答

1

這裏是正在考慮的事情:

  1. 如何屬於同一主機很多網址可以被抓取的鏈接
  2. 的成績。
  3. 是否達到了URL的重新獲取時間?
+0

我有兩個網站在nutch 2.1中抓取,但只有一個網站正在抓取。第二個網站如何與第一個網站一起抓取?我已經將這兩個網站都添加到了正則表達式urlfilter文件中,但第二個網站只有20個網址,而第一個網站已經有大約16k個網址已經提取,而獲取的新網址僅來自第一個網站。 – peter 2013-01-05 11:03:40

+0

@peter可能有幾個因素..是第二個有嚴格機器人限制的網站嗎?在獲取HTTP響應/內容如ReadTimeOut,Socket等問題時是否有任何異常?是否有第二主機有資格獲取?那些被提取出來的那些可以產生出鏈?在第二臺主機上運行單獨的本地模式抓取並檢查日誌,分段和crawldb將有助於找出問題 – 2013-01-05 23:46:33

+0

第二個站點有更多不被允許的目錄,但我不認爲它會影響抓取。有大約180個網址是無法取得的。我如何運行單獨的本地模式爬網?我正在使用MySQL,因此段和crawldb文件夾不存在。 – peter 2013-01-12 10:16:39