Q

空的Nutch爬行列表

2010-12-18 49 views 0 likes

0

我試圖在Eclipse中使用Nutch進行爬網。空的Nutch爬行列表

我使用了一個叫做的URL文件，它包含

http://www.google.com/

然而，當我運行該項目，發電機類卻對我說：選擇獲取

「0條記錄，退出「

我該如何解決這個問題？

我已經按照這些單證：

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

http://wiki.apache.org/nutch/NutchTutorial

任何幫助將不勝感激。

2010-12-18 Lajos Arpad

A

回答

1

我最近遇到了這個問題，發現大多數回覆都關注（regex | crawl）-urlfiters.txt。另一件要檢查的是你的'-topN'設置。這需要足夠大以使發生器通過所有過濾器。

我希望這會有所幫助。

2012-07-25 23:38:55 cloksmith

0

它最有可能是你的regex-urlfilter.xml。嘗試使用這個，看看它是否解決了這個問題

- ^（文件| FTP |郵寄地址）：

- （GIF | GIF | JPG | JPG | PNG | PNG | ICO | JS | ICO | DOC | MP3 | MP3 | DOC | css | rss | sit | eps | wmf | zip | ppt | mpg | xls | gz | rpm | tgz | mov | MOV | exe | jpeg | JPEG | bmp | BMP）$

- 。*（/ [^ /] +）/ [^ /] + \ 1/[^ /] + \ 1/

+。

2011-02-04 06:49:56 Slick86

相關問題