2
A
回答
0
默認情況下,heritrix使用ARCWriterProcessor將其所有已抓取的內容寫入磁盤。該處理器將找到的爬網內容寫入Internet Archive ARC文件。 ARC文件格式在這裏描述:Arc File Format。 Heritrix寫入版本1 ARC文件1。
ARC文件位於您的爬網實例的arcs/
文件夾中。您可以更改heritrix的Web-GUI設置中的位置。
除了默認的ARCWriterProcessor,您可以將其設置爲WARCWriterProcessor(WARC文件),MirrorWriterProcessor(根本沒有容器)或Kw3WriterProcessor。 AFAIK,你甚至可以設置多個作家。請注意,選擇MirrorWriterProcessor時,並非所有文件都可能寫入光盤,具體取決於您用於將文件寫入的文件系統。
相關問題
- 1. PHP網絡爬蟲不會抓取.php文件
- 2. 網絡爬蟲是否存儲Cookie?
- 3. Python網絡爬蟲的文件存儲問題
- 4. 訪問通過網絡爬蟲存儲的.lck和jdb文件
- 5. 網絡爬蟲
- 6. 網絡爬蟲提取
- 7. 具有存儲網絡歷史記錄的Python網絡爬蟲
- 8. 在MYSQL中使用JAVA網絡爬蟲存儲印地文詞
- 9. 網絡爬蟲文本雲
- 10. C++網絡爬蟲
- 11. PHP網絡爬蟲
- 12. Python網絡爬蟲
- 13. java網絡爬蟲
- 14. 網絡爬蟲類
- 15. 網絡爬蟲的功能
- 16. 網絡爬蟲的Java
- 17. 簡單的網絡爬蟲
- 18. Python中的網絡爬蟲
- 19. 如何使用Python從Heritrix爬蟲中讀取.ARC文件?
- 20. 網絡爬蟲 - 忽略Robots.txt文件?
- 21. php爬蟲(抓取單個網站)
- 22. 在Scala中的網絡爬蟲算法
- 23. 在android上的簡單網絡爬蟲?
- 24. 網絡爬蟲抓取並非所有URL
- 25. 網絡爬蟲在哪裏獲取他們的網站列表進行爬網?
- 26. 存儲URL邊界並分發網絡爬蟲的工作?
- 27. 網絡爬蟲產生輸出緩存
- 28. 自動網絡爬蟲
- 29. 網絡爬蟲,反饋?
- 30. 遞歸網絡爬蟲perl
您是否檢查手冊? – 2010-05-20 04:37:45
是的,我想要查看抓取文件... 該文件的格式是什麼... 我將如何解析? – 2010-05-20 04:41:13