2015-02-24 74 views
1

我有一個關於查看crawldb/segments文件夾中的數據的問題。我看到段文件夾中有一個content/part-00000文件夾。如何轉儲數據(或查看數據)?在nutch抓取/分段文件夾中查看數據

這是我所看到的,當是類型ESC :%!xxd二進制文件(我刪除了十六進制代碼)

SEQ.org.apache.hadoop.io.Text 
org.apache.nutch.parse.ParseText. 
.org.apache.hadoop.io.compress. 
DefaultCodec http://localhost:8001/a.html 

和多個字符這樣。

這沒什麼意義。這看起來不像我在本地頁面上的數據。有沒有另外一種方式來看待這個問題,還是應該看一個不同的地方?

回答

1

運行從Nutch的家以下命令:

bin/nutch readseg -dump crawl/segments/your_segment output -nofetch -noparse -noparsetext 

要知道什麼命令,你可以使用Nutch使用,嘗試運行

bin/nutch 

我希望幫助。