2012-09-30 28 views
1

可能重複:
How to download a file in python如何備份整個網頁包含圖片與Python?

我與Python打做一些爬行的東西。我知道有urllib.urlopen("http://XXXX")這可以幫助我獲得目標網站的HTML。但是,該網頁中原始圖片的鏈接通常會使備份頁面中的圖片不可用。我想知道是否有一種方法可以將圖像保存在本地空間,然後我們可以在沒有網絡連接的情況下閱讀網站上的全部內容。這就像備份整個網頁,但我不確定是否有任何方法可以在Python中執行此操作。此外,如果它可以擺脫廣告的東西,它會更加令人敬畏。謝謝。

+1

你真的需要在python中做到這一點?用'wget -p'來做你想做的事情要容易得多。這也將檢索顯示頁面所需的圖像和其他鏈接。您可以使用'wget -L'或'wger -np'來播放廣告內容。 –

回答

1

如果您希望備份單個網頁,那麼您就可以順利完成任務。

既然你提到了抓取,如果你想備份整個網站,你需要做一些真正的抓取,你需要這樣做scrapy

有下載文件從interwebs的幾種方法,只是看到這些問題:

  1. Python File Download
  2. How to- download a file in python
  3. Automate file download from http using python

希望這有助於

+0

我明白了,謝謝。是否可以將整個網頁保存到數據庫而不是我的桌面上的文件?雖然這可能看起來有點奇怪,因爲我不知道如何保存HTML和圖像之間的關係,它有數據庫... – JLTChiu

+0

你爲什麼要使用數據庫?一個寫得很好的HTML文件應該知道在哪裏可以找到文件系統中的圖像。 – inspectorG4dget

+0

如果您查看驅動器上的.html文件,它將使用wget(可能是scrapy,我只是沒有使用它自己)正確鏈接到圖像(也是本地的) – ninMonkey