在窗口上使用Nutch

我在使用Nutch抓取時遇到了一些問題。我跟着教程從here但錯誤：在窗口上使用Nutch

" /home/apache-nutch-2.3.1/runtime/local/bin/nutch inject urls/seed.txt -crawlId TestCrawl 
Failed with exit value 1. 
"

任何人都可以提供指導給我參考如何在窗口中正確使用Nutch的？

來源

2017-10-17 Terence Goh

由於版本衝突和弱在線引用，我多次嘗試設置Apache Nutch與Hbase或MongoDB獨立失敗。我寧願建議使用任何DockerFile來幫助指導您完成設置。您可以使用Docker加載圖像，或者如果您希望Nutch在本地安裝，只需按照任何正在運行的DockerFile中的所有命令進行操作即可。這是一個可用於開始使用的DockerFile的example。

成功安裝後，你可以抓取使用：

[NUTCH_DIRECTORY]/bin/crawl -i -s seed.txt crawldata <NUM_ROUNDS>

這將完成整個抓取過程（注，獲取，解析和生成）。

然後，您可以通過運行這個命令來查看解析的內容：

./nutch readlinkdb data/linkdb/ -dump out 
cat out/part-00000

希望這有助於！

來源

2017-11-07 11:52:04

在窗口上使用Nutch

回答

相關問題