Solr 5.0和Nutch 1.10

我使用的是Solr 5.0，Nutch 1.10和Windows Server 2008 R2上的cygwin。我發出命令：Solr 5.0和Nutch 1.10

斌/爬行-D網址/斌/網址抓取/ 2

我所知2的是輪爬行的數量。當我執行這個命令並讀取crawldb時，我只收到127個url，與預期的相比，它的數量少得多。而且它不會在更深的地方爬行。當我發出這個命令將數據傳遞到Solr：

斌/ Nutch的solrindex http://127.0.0.1:8983/solr/thetest爬行/ crawldb -linkdb爬行/ linkdb爬行/段/ *

，然後進行搜索，然後我得到了所有的只有20個網址。任何人都可以幫忙我需要做更深入的爬行。

來源

2015-06-03 user4923717

你可以增加一輪的數量，這將取得更多的網址。您可能會看到hadoop.log文件存在於./logs文件夾中的每一輪取數的網址。

你可以參考此link

用法：抓取[-i | --index] [-D 「鍵=值」] -i | --index索引檢索結果插入配置索引 -DA要傳遞給Nutch的Java屬性種子目錄要查找種子文件的目錄爬網目錄保存爬網/鏈接/分段目錄的目錄 Num Rounds運行此爬網的輪次數示例：bin/crawl -i -D solr.server.url = http://localhost:8983/solr/ url/TestCrawl/2

bin/crawl -i -D solr.server.url=$solrUrl cores/$coreName/urls cores/$coreName/crawl 2

來源

2016-03-22 13:47:21 rocksta

Solr 5.0和Nutch 1.10

回答

相關問題