我使用的是Solr 5.0,Nutch 1.10和Windows Server 2008 R2上的cygwin。我發出命令:Solr 5.0和Nutch 1.10
斌/爬行-D網址/斌/網址抓取/ 2
我所知2的是輪爬行的數量。當我執行這個命令並讀取crawldb時,我只收到127個url,與預期的相比,它的數量少得多。而且它不會在更深的地方爬行。當我發出這個命令將數據傳遞到Solr:
斌/ Nutch的solrindex http://127.0.0.1:8983/solr/thetest爬行/ crawldb -linkdb爬行/ linkdb爬行/段/ *
,然後進行搜索,然後我得到了所有的只有20個網址。任何人都可以幫忙我需要做更深入的爬行。