Q

從抓取的網站（ARC文件）中提取圖形

2010-06-21 91 views 0 likes

0

我正在處理Heritrix抓取生成的ARC文件。當我在Wayback Machine中查看這些頁面時，看起來大多數圖形都是從本地機器加載的，所以我假設這些圖形存儲在ARC文件中。那是對的嗎？如果是這樣，提取圖像的最佳方式是什麼？從抓取的網站（ARC文件）中提取圖形

2010-06-21 rayan

A

回答

0

我找到了一個解決方案，一個perl腳本調用arc_extractor： https://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt

它提取所有的都在ARC文件中的文件，根據從他們收到了該網站的文件夾分開。是的，它包含圖像文件。

該腳本不是太優雅...所以如果任何人有任何其他的建議，我會有興趣瞭解他們。

2010-06-21 15:41:42 rayan

相關問題

11. 從網站提取圖像
12. 從網站提取圖標
13. 使用xcode從網站抓取文本
14. 軟件抓取/抓取網站的網址
15. scrapy抓取網站
16. 安裝抓取，網站抓取庫
17. 從網站抓取多個網頁
18. 從網站抓取多個網頁
19. 從網站中提取所有圖像
20. 從網站中提取html
21. 網站抓取器每隔幾秒就抓取一次網站
22. 抓取：從AngularJs網站和抓取中提取所有文本和鏈接（href和ng-href）
23. Facebook不抓取我的網站圖片
24. 從網頁抓取生成的文件
25. 成功提交後django網站的網站沒有被抓取
26. 從網頁抓取文本
27. 使用beautifullsoup和python從網站/文件中提取.js文件
28. 網站抓取問題網站
29. 如何抓取網站並截取每個網頁的截圖？
30. 用ABOT抓取網站地圖