2016-12-17 65 views
1

我有興趣下載以便稍後分析一堆網頁。有兩件事我想要做:將網頁和相關資源下載到python中的WARC中

  • 將頁面和相關資源(圖像,與文章關聯的多個頁面等)下載到WARC文件。
  • 將所有鏈接更改爲指向現在的本地文件。

我想用Python做到這一點。

有沒有這樣做的好庫? Scrapy似乎被設計爲刮取網站,而不是單個頁面,我不知道如何生成WARC文件。如果沒有更多的python native,調用wget是一個可行的解決方案。 Heritrix是完全矯枉過正的,而不是Python的解決方案。如果它有一個很好的文檔化的Python庫,wpull將是理想的,但它似乎主要是一個應用程序。

還有其他想法嗎?

回答

1

只是使用wget,是最簡單和最穩定的工具,你可以爬網和保存到warc。

人的wget,或只是開始:

--warc-file=FILENAME  save request/response data to a .warc.gz file 
-p, --page-requisites   get all images, etc. needed to display HTML page 

請注意你沒有改變任何鏈接,則WARC保留原始網頁。是重播軟件(openwayback,pywb)的作用,使得warc內容可以再次瀏覽。

,如果你需要去與蟒蛇: internetarchive/warc是默認的庫

看看這個,如果你想手工製作一個WARC文件ampoffcom/htmlwarc