1
我有興趣下載以便稍後分析一堆網頁。有兩件事我想要做:將網頁和相關資源下載到python中的WARC中
- 將頁面和相關資源(圖像,與文章關聯的多個頁面等)下載到WARC文件。
- 將所有鏈接更改爲指向現在的本地文件。
我想用Python做到這一點。
有沒有這樣做的好庫? Scrapy似乎被設計爲刮取網站,而不是單個頁面,我不知道如何生成WARC文件。如果沒有更多的python native,調用wget是一個可行的解決方案。 Heritrix是完全矯枉過正的,而不是Python的解決方案。如果它有一個很好的文檔化的Python庫,wpull將是理想的,但它似乎主要是一個應用程序。
還有其他想法嗎?