2014-09-29 98 views

回答

0

可以使用Nutch的dump命令

下面是語法:

​​

例子:

bin/nutch dump -outputDir /tmp/tt03 -segment crawl/crawldb/segments 
0

正如你當然知道,抓取數據存儲在段。實際上,你可以使用提取readseg命令(例如)這些數據:

bin/nutch readseg -dump /work/apache-nutch-1.12/crawl/segments/20161005134205 my_dump_dir 

其中my_dump_dir是你的目錄,這將創建幷包含轉儲。

然後在你的my_dump_dir你會發現兩個文件:轉儲(包含抓取和分析數據 - non_encoded),並.dump.crc(我猜一些二進制)。他們用任何文本編輯器查看轉儲並查看結構。如果你需要,你也可以解析它。