2015-06-03 72 views
0

我使用的是Solr 5.0,Nutch 1.10和Windows Server 2008 R2上的cygwin。我發出命令:Solr 5.0和Nutch 1.10

斌/爬行-D網址/斌/網址抓取/ 2

我所知2的是輪爬行的數量。當我執行這個命令並讀取crawldb時,我只收到127個url,與預期的相比,它的數量少得多。而且它不會在更深的地方爬行。當我發出這個命令將數據傳遞到Solr:

斌/ Nutch的solrindex http://127.0.0.1:8983/solr/thetest爬行/ crawldb -linkdb爬行/ linkdb爬行/段/ *

,然後進行搜索,然後我得到了所有的只有20個網址。任何人都可以幫忙我需要做更深入的爬行。

回答

0

你可以增加一輪的數量,這將取得更多的網址。您可能會看到hadoop.log文件存在於./logs文件夾中的每一輪取數的網址。

你可以參考此link

用法:抓取[-i | --index] [-D 「鍵=值」] -i | --index索引檢索結果插入配置索引 -DA要傳遞給Nutch的Java屬性 種子目錄要查找種子文件的目錄 爬網目錄保存爬網/鏈接/分段目錄的目錄 Num Rounds運行此爬網的輪次數 示例:bin/crawl -i -D solr.server.url = http://localhost:8983/solr/ url/TestCrawl/2

bin/crawl -i -D solr.server.url=$solrUrl cores/$coreName/urls cores/$coreName/crawl 2