我試圖在Eclipse中使用Nutch進行爬網。空的Nutch爬行列表
我使用了一個叫做的URL文件,它包含
然而,當我運行該項目,發電機類卻對我說:選擇獲取
「0條記錄,退出「
我該如何解決這個問題?
我已經按照這些單證:
http://wiki.apache.org/nutch/RunNutchInEclipse1.0
http://wiki.apache.org/nutch/NutchTutorial
任何幫助將不勝感激。
我試圖在Eclipse中使用Nutch進行爬網。空的Nutch爬行列表
我使用了一個叫做的URL文件,它包含
然而,當我運行該項目,發電機類卻對我說:選擇獲取
「0條記錄,退出「
我該如何解決這個問題?
我已經按照這些單證:
http://wiki.apache.org/nutch/RunNutchInEclipse1.0
http://wiki.apache.org/nutch/NutchTutorial
任何幫助將不勝感激。
我最近遇到了這個問題,發現大多數回覆都關注(regex | crawl)-urlfiters.txt。另一件要檢查的是你的'-topN'設置。這需要足夠大以使發生器通過所有過濾器。
我希望這會有所幫助。
它最有可能是你的regex-urlfilter.xml。嘗試使用這個,看看它是否解決了這個問題
- ^(文件| FTP |郵寄地址):
- (GIF | GIF | JPG | JPG | PNG | PNG | ICO | JS | ICO | DOC | MP3 | MP3 | DOC | css | rss | sit | eps | wmf | zip | ppt | mpg | xls | gz | rpm | tgz | mov | MOV | exe | jpeg | JPEG | bmp | BMP)$
- 。*(/ [^ /] +)/ [^ /] + \ 1/[^ /] + \ 1/
+。