2015-11-03 105 views
6

當我用下面的命令來運行nutch 1.10,假設TestCrawl2以前並不存在,需要創建,...Nutch的1.10輸入路徑不存在/ linkdb /電流

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20 

我收到一個錯誤索引:

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current 

linkdb目錄存在,但不包含'當前'目錄。該目錄由root擁有,因此應該沒有權限問題。由於進程退出了錯誤,因此linkdb目錄包含.locked和.. locked.crc文件。如果我再次運行該命令,這些鎖定文件會導致它在同一個地方退出。刪除TestCrawl2目錄,沖洗,重複。

請注意,nutch和solr installaions本身在以前沒有問題的情況下在TestCrawl實例中運行。現在,我正在嘗試一個新的問題。有關解決此問題的任何建議?

回答

3

好吧,它好像我遇到了一個版本,這個問題的:

https://issues.apache.org/jira/browse/NUTCH-2041

這是沒有意識到變化的爬行腳本ignore_external_links我的Nutch-site.xml中的結果文件。

我試圖抓取幾個網站,並希望保持我的生活忽略外部鏈接,留下的正則表達式,urlfilter.txt單獨簡單(只用+。)

現在看起來我不得不將ignore_external_links更改爲false,併爲我的每個url添加正則表達式過濾器。希望我能很快得到nutch 1.11的發佈。看起來這是固定的。

相關問題