criteia nutch在爬行時選擇TopN文檔？

criteia nutch在抓取時選擇TopN文檔？以及nutch如何創建細分市場？criteia nutch在爬行時選擇TopN文檔？

2012-01-27 search_dev

這裏是正在考慮的事情：

如何屬於同一主機很多網址可以被抓取的鏈接
的成績。
是否達到了URL的重新獲取時間？

2012-04-03 15:29:19

我有兩個網站在nutch 2.1中抓取，但只有一個網站正在抓取。第二個網站如何與第一個網站一起抓取？我已經將這兩個網站都添加到了正則表達式urlfilter文件中，但第二個網站只有20個網址，而第一個網站已經有大約16k個網址已經提取，而獲取的新網址僅來自第一個網站。 – peter 2013-01-05 11:03:40

@peter可能有幾個因素..是第二個有嚴格機器人限制的網站嗎？在獲取HTTP響應/內容如ReadTimeOut，Socket等問題時是否有任何異常？是否有第二主機有資格獲取？那些被提取出來的那些可以產生出鏈？在第二臺主機上運行單獨的本地模式抓取並檢查日誌，分段和crawldb將有助於找出問題 – 2013-01-05 23:46:33

第二個站點有更多不被允許的目錄，但我不認爲它會影響抓取。有大約180個網址是無法取得的。我如何運行單獨的本地模式爬網？我正在使用MySQL，因此段和crawldb文件夾不存在。 – peter 2013-01-12 10:16:39

criteia nutch在爬行時選擇TopN文檔？

回答

相關問題