Nutch的1.10輸入路徑不存在/ linkdb /電流

當我用下面的命令來運行nutch 1.10，假設TestCrawl2以前並不存在，需要創建，...Nutch的1.10輸入路徑不存在/ linkdb /電流

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20

我收到一個錯誤索引：

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current

linkdb目錄存在，但不包含'當前'目錄。該目錄由root擁有，因此應該沒有權限問題。由於進程退出了錯誤，因此linkdb目錄包含.locked和.. locked.crc文件。如果我再次運行該命令，這些鎖定文件會導致它在同一個地方退出。刪除TestCrawl2目錄，沖洗，重複。

請注意，nutch和solr installaions本身在以前沒有問題的情況下在TestCrawl實例中運行。現在，我正在嘗試一個新的問題。有關解決此問題的任何建議？

好吧，它好像我遇到了一個版本，這個問題的：

這是沒有意識到變化的爬行腳本ignore_external_links我的Nutch-site.xml中的結果文件。

我試圖抓取幾個網站，並希望保持我的生活忽略外部鏈接，留下的正則表達式，urlfilter.txt單獨簡單（只用+。）

現在看起來我不得不將ignore_external_links更改爲false，併爲我的每個url添加正則表達式過濾器。希望我能很快得到nutch 1.11的發佈。看起來這是固定的。

2015-11-09 21:10:43

回答