當我用下面的命令來運行nutch 1.10
,假設TestCrawl2
以前並不存在,需要創建,...Nutch的1.10輸入路徑不存在/ linkdb /電流
sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20
我收到一個錯誤索引:
Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current
linkdb目錄存在,但不包含'當前'目錄。該目錄由root擁有,因此應該沒有權限問題。由於進程退出了錯誤,因此linkdb目錄包含.locked
和.. locked.crc
文件。如果我再次運行該命令,這些鎖定文件會導致它在同一個地方退出。刪除TestCrawl2
目錄,沖洗,重複。
請注意,nutch和solr installaions本身在以前沒有問題的情況下在TestCrawl
實例中運行。現在,我正在嘗試一個新的問題。有關解決此問題的任何建議?