在Python中沒有圖像的情況下刮除和保存html文件

我在抓取一個網站，並且在獲取每個頁面後，我將該頁面存儲在一個html文件中。當我將這些內容存儲在一個html文件中時，它也存儲了這些圖像，並且它正在佔用我所有的存儲空間。無論如何，我可以存儲文件沒有圖像？在Python中沒有圖像的情況下刮除和保存html文件

下面是代碼：

for url in xrange(all_urls): 
    driver.get(url) 
    page = driver.page_source 
    f = open(url.replace('/','_') +'.html' , 'w') 
    f.write(page.encode('utf-8')) 
    f.close() 
    time.sleep(uniform(2, 5))

來源

2017-04-05 Erin

您是否想要鏡像整個網站？你可以發佈一些代碼嗎？ –

但是，我沒有反映整個網站，我的存儲空間非常有限。目前，每個文件大約是600K。 – Erin

檢查'url'的擴展名。使用白名單（html，php，asp等）來檢查是否要保存內容。 –

您可以使用捲曲和保存文件與HTML格式。

來源

2017-04-05 17:18:27 AbdurrahmanD

當我使用捲曲時，網站檢測到我在刮。所以我需要使用webdriver並存儲文件。 – Erin

在Python中沒有圖像的情況下刮除和保存html文件

回答

相關問題