2010-05-20 53 views
2

我想知道在哪裏爬網的文件存儲在Heritrix的網絡爬蟲...在抓取的文件存儲在Heritrix的網絡爬蟲

感謝,並提前

+0

您是否檢查手冊? – 2010-05-20 04:37:45

+0

是的,我想要查看抓取文件... 該文件的格式是什麼... 我將如何解析? – 2010-05-20 04:41:13

回答

0

developer manual

默認情況下,heritrix使用ARCWriterProcessor將其所有已抓取的內容寫入磁盤。該處理器將找到的爬網內容寫入Internet Archive ARC文件。 ARC文件格式在這裏描述:Arc File Format。 Heritrix寫入版本1 ARC文件1

ARC文件位於您的爬網實例的arcs/文件夾中。您可以更改heritrix的Web-GUI設置中的位置。

除了默認的ARCWriterProcessor,您可以將其設置爲WARCWriterProcessor(WARC文件),MirrorWriterProcessor(根本沒有容器)或Kw3WriterProcessor。 AFAIK,你甚至可以設置多個作家。請注意,選擇MirrorWriterProcessor時,並非所有文件都可能寫入光盤,具體取決於您用於將文件寫入的文件系統。

[1] Internet Archive ARC files