0
我正在處理Heritrix抓取生成的ARC文件。當我在Wayback Machine中查看這些頁面時,看起來大多數圖形都是從本地機器加載的,所以我假設這些圖形存儲在ARC文件中。那是對的嗎?如果是這樣,提取圖像的最佳方式是什麼?從抓取的網站(ARC文件)中提取圖形
我正在處理Heritrix抓取生成的ARC文件。當我在Wayback Machine中查看這些頁面時,看起來大多數圖形都是從本地機器加載的,所以我假設這些圖形存儲在ARC文件中。那是對的嗎?如果是這樣,提取圖像的最佳方式是什麼?從抓取的網站(ARC文件)中提取圖形
我找到了一個解決方案,一個perl腳本調用arc_extractor: https://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt
它提取所有的都在ARC文件中的文件,根據從他們收到了該網站的文件夾分開。是的,它包含圖像文件。
該腳本不是太優雅...所以如果任何人有任何其他的建議,我會有興趣瞭解他們。