將網頁和相關資源下載到python中的WARC中

我有興趣下載以便稍後分析一堆網頁。有兩件事我想要做：將網頁和相關資源下載到python中的WARC中

將頁面和相關資源（圖像，與文章關聯的多個頁面等）下載到WARC文件。
將所有鏈接更改爲指向現在的本地文件。

我想用Python做到這一點。

有沒有這樣做的好庫？ Scrapy似乎被設計爲刮取網站，而不是單個頁面，我不知道如何生成WARC文件。如果沒有更多的python native，調用wget是一個可行的解決方案。 Heritrix是完全矯枉過正的，而不是Python的解決方案。如果它有一個很好的文檔化的Python庫，wpull將是理想的，但它似乎主要是一個應用程序。

還有其他想法嗎？

來源

2016-12-17 Andrew Spott

只是使用wget，是最簡單和最穩定的工具，你可以爬網和保存到warc。

人的wget，或只是開始：

--warc-file=FILENAME  save request/response data to a .warc.gz file 
-p, --page-requisites   get all images, etc. needed to display HTML page

請注意你沒有改變任何鏈接，則WARC保留原始網頁。是重播軟件（openwayback，pywb）的作用，使得warc內容可以再次瀏覽。

，如果你需要去與蟒蛇： internetarchive/warc是默認的庫

看看這個，如果你想手工製作一個WARC文件ampoffcom/htmlwarc

來源

2016-12-21 22:49:54

將網頁和相關資源下載到python中的WARC中

回答

相關問題