我正在使用Nutch來抓取一個網站,並且我想收集所有404個網址在抓取過程中。然後,我擡頭一看Nutch的wiki和我發現,使用Nutch的命令 'readdb' 可以產生類似:是否有可能使用java代碼讀取crawldb?
狀態:1(db_unfetched)
提取時間:孫月08 21點42分34秒CST 2013
修改時間:星期四1月1 8點00分00秒CST 1970
重試因爲取:0
重試間隔:2592000秒(30天)
積分:1個
簽名:空
元數據:
和所有404的URL的狀態爲3.
我認爲這些imformathion都來自crawldb。那麼有沒有辦法使用java代碼來讀取crawldb?我還了解到nutch在HDFS上存儲數據,因此我需要使用hadoop工具來讀取它們嗎?或者有沒有更好的方法來達到我的要求?
P.s.我Nutch的版本是1.13,和我的運行環境是Ubuntu16.04