1
我有一個關於查看crawldb/segments
文件夾中的數據的問題。我看到段文件夾中有一個content/part-00000
文件夾。如何轉儲數據(或查看數據)?在nutch抓取/分段文件夾中查看數據
這是我所看到的,當是類型ESC :%!xxd
二進制文件(我刪除了十六進制代碼)
SEQ.org.apache.hadoop.io.Text
org.apache.nutch.parse.ParseText.
.org.apache.hadoop.io.compress.
DefaultCodec http://localhost:8001/a.html
和多個字符這樣。
這沒什麼意義。這看起來不像我在本地頁面上的數據。有沒有另外一種方式來看待這個問題,還是應該看一個不同的地方?