0
我在抓取一個網站,並且在獲取每個頁面後,我將該頁面存儲在一個html文件中。當我將這些內容存儲在一個html文件中時,它也存儲了這些圖像,並且它正在佔用我所有的存儲空間。無論如何,我可以存儲文件沒有圖像?在Python中沒有圖像的情況下刮除和保存html文件
下面是代碼:
for url in xrange(all_urls):
driver.get(url)
page = driver.page_source
f = open(url.replace('/','_') +'.html' , 'w')
f.write(page.encode('utf-8'))
f.close()
time.sleep(uniform(2, 5))
您是否想要鏡像整個網站?你可以發佈一些代碼嗎? –
但是,我沒有反映整個網站,我的存儲空間非常有限。目前,每個文件大約是600K。 – Erin
檢查'url'的擴展名。使用白名單(html,php,asp等)來檢查是否要保存內容。 –