我正在使用Nutch 2.1與mysql集成。我抓取了2個網站,Nutch成功抓取它們並將數據存儲到Mysql中。我正在使用Solr 4.0.0進行搜索。如何recutch nutch
現在我的問題是,當我嘗試重新抓取像trailer.apple.com或任何其他網站的網站時,它總是抓取最後抓取的網址。即使我已經從seeds.txt文件中刪除了最後一次抓取的網址,並輸入了新的Url。但是Nutch不會抓取新的Url。
有人可以告訴我,我做錯了什麼。
也請給我建議任何Nutch插件,可以幫助抓取視頻和電影網站。
任何幫助將真正明顯。
我解決了問題。 在/root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txt和 在/root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txt我只是刪除空間在域之前。 之前: #另外接受 ^ http://([a-z0-9] *。)www.domain02.com/sport/ ^ http://([a-z0-9]。) * www.domain03.com/sport/ 之後: #接受別的東西 ^ http://([a-z0-9] *。)www.domain02.com/sport/ ^ http://( )* www.domain03.com/sport/ 現在nutch抓取新的網址。 –