2017-10-17 135 views
0

我在使用Nutch抓取時遇到了一些問題。我跟着教程從here但錯誤:在窗口上使用Nutch

" /home/apache-nutch-2.3.1/runtime/local/bin/nutch inject urls/seed.txt -crawlId TestCrawl 
Failed with exit value 1. 
" 

任何人都可以提供指導給我參考如何在窗口中正確使用Nutch的?

回答

0

由於版本衝突和弱在線引用,我多次嘗試設置Apache Nutch與Hbase或MongoDB獨立失敗。我寧願建議使用任何DockerFile來幫助指導您完成設置。您可以使用Docker加載圖像,或者如果您希望Nutch在本地安裝,只需按照任何正在運行的DockerFile中的所有命令進行操作即可。這是一個可用於開始使用的DockerFile的example

成功安裝後,你可以抓取使用:

[NUTCH_DIRECTORY]/bin/crawl -i -s seed.txt crawldata <NUM_ROUNDS> 

這將完成整個抓取過程(注,獲取,解析和生成)。

然後,您可以通過運行這個命令來查看解析的內容:

./nutch readlinkdb data/linkdb/ -dump out 
cat out/part-00000 

希望這有助於!