2015-05-06 63 views
0

我使用Hadoop的單個節點設置了Apache Nutch。當我執行爬網命令時,它開始爬網。但是在幾分鐘後拋出異常。org.apache.hadoop.mapred.InvalidInputException:輸入路徑不存在

原因:org.apache.hadoop.mapred.InvalidInputException:輸入路徑不 不存在:(請參考圖像1)

這是無效的路徑根據該異常 HDFS://localhost:54310/user/duleendra/TestCrawl/segments/drwxrwxrwx/crawl_generate

實際上在hdfs中沒有這樣的路徑。

drwxrwxrwx如何來?

HDFS中我可以看到下面的路徑

HDFS://本地主機:54310 /用戶/ duleendra/TestCrawl /分段/ 20150506222506/crawl_generate

(請參考圖像2以及)。

enter image description here

enter image description here

我錯過了什麼?

感謝

Duleendra

+0

drwxrwxrwx實際上是文件夾 –

+0

是的權限,但不知道如何該路徑帶有drwxrwxrwx HDFS://本地主機:54310 /用戶/ duleendra/TestCrawl /段/ drwxrwxrwx/crawl_generate – Duleendra

+0

好像調用'LS在-al' shell腳本,但預計'ls'輸出並解釋結果 –

回答

0

我相信這是基於Unix系統,如OSX和FreeBSD的錯誤。 Nutch的抓取行爲在他們身上不起作用。試試ubuntu。

相關問題