0
我在使用Nutch抓取時遇到了一些問題。我跟着教程從here但錯誤:在窗口上使用Nutch
" /home/apache-nutch-2.3.1/runtime/local/bin/nutch inject urls/seed.txt -crawlId TestCrawl
Failed with exit value 1.
"
任何人都可以提供指導給我參考如何在窗口中正確使用Nutch的?
我在使用Nutch抓取時遇到了一些問題。我跟着教程從here但錯誤:在窗口上使用Nutch
" /home/apache-nutch-2.3.1/runtime/local/bin/nutch inject urls/seed.txt -crawlId TestCrawl
Failed with exit value 1.
"
任何人都可以提供指導給我參考如何在窗口中正確使用Nutch的?
由於版本衝突和弱在線引用,我多次嘗試設置Apache Nutch與Hbase或MongoDB獨立失敗。我寧願建議使用任何DockerFile來幫助指導您完成設置。您可以使用Docker加載圖像,或者如果您希望Nutch在本地安裝,只需按照任何正在運行的DockerFile中的所有命令進行操作即可。這是一個可用於開始使用的DockerFile的example。
成功安裝後,你可以抓取使用:
[NUTCH_DIRECTORY]/bin/crawl -i -s seed.txt crawldata <NUM_ROUNDS>
這將完成整個抓取過程(注,獲取,解析和生成)。
然後,您可以通過運行這個命令來查看解析的內容:
./nutch readlinkdb data/linkdb/ -dump out
cat out/part-00000
希望這有助於!