2017-04-05 81 views
0

我在抓取一個網站,並且在獲取每個頁面後,我將該頁面存儲在一個html文件中。當我將這些內容存儲在一個html文件中時,它也存儲了這些圖像,並且它正在佔用我所有的存儲空間。無論如何,我可以存儲文件沒有圖像?在Python中沒有圖像的情況下刮除和保存html文件

下面是代碼:

for url in xrange(all_urls): 
    driver.get(url) 
    page = driver.page_source 
    f = open(url.replace('/','_') +'.html' , 'w') 
    f.write(page.encode('utf-8')) 
    f.close() 
    time.sleep(uniform(2, 5)) 
+0

您是否想要鏡像整個網站?你可以發佈一些代碼嗎? –

+0

但是,我沒有反映整個網站,我的存儲空間非常有限。目前,每個文件大約是600K。 – Erin

+0

檢查'url'的擴展名。使用白名單(html,php,asp等)來檢查是否要保存內容。 –

回答

0

您可以使用捲曲和保存文件與HTML格式。

+0

當我使用捲曲時,網站檢測到我在刮。所以我需要使用webdriver並存儲文件。 – Erin

相關問題