我與Python打做一些爬行的東西。我知道有urllib.urlopen("http://XXXX")
這可以幫助我獲得目標網站的HTML。但是,該網頁中原始圖片的鏈接通常會使備份頁面中的圖片不可用。我想知道是否有一種方法可以將圖像保存在本地空間,然後我們可以在沒有網絡連接的情況下閱讀網站上的全部內容。這就像備份整個網頁,但我不確定是否有任何方法可以在Python中執行此操作。此外,如果它可以擺脫廣告的東西,它會更加令人敬畏。謝謝。
回答
如果您希望備份單個網頁,那麼您就可以順利完成任務。
既然你提到了抓取,如果你想備份整個網站,你需要做一些真正的抓取,你需要這樣做scrapy。
有下載文件從interwebs的幾種方法,只是看到這些問題:
- Python File Download
- How to- download a file in python
- Automate file download from http using python
希望這有助於
我明白了,謝謝。是否可以將整個網頁保存到數據庫而不是我的桌面上的文件?雖然這可能看起來有點奇怪,因爲我不知道如何保存HTML和圖像之間的關係,它有數據庫... – JLTChiu
你爲什麼要使用數據庫?一個寫得很好的HTML文件應該知道在哪裏可以找到文件系統中的圖像。 – inspectorG4dget
如果您查看驅動器上的.html文件,它將使用wget(可能是scrapy,我只是沒有使用它自己)正確鏈接到圖像(也是本地的) – ninMonkey
- 1. 如何在Ruby腳本中備份整個網頁(包括圖片等)?
- 2. 兩張圖片覆蓋整個網頁
- 3. 背景圖片不包括整個網頁
- 4. 如何在整個網頁上顯示圖片?
- 5. 如何在iPhone上下載整個網頁(帶圖片)?
- 6. 如何網頁/圖片
- 7. 包含圖片網址到XML文件
- 8. 包含圖片的錨佔滿頁寬
- 9. 如何備份SalesForce包?
- 10. 包含圖片Excel
- 11. 如何緩存整個網頁與iOS中的圖像
- 12. 圖片庫整合到網頁
- 13. 如何打印網頁包含閃存
- 14. 如何解析包含Javascript的網頁?
- 15. 如何「包含」背景圖片?
- 16. 該圖片包含錯誤與imagick
- 17. 如何使用python解析包含CSS和HTML的網頁
- 18. 如何下載包含網站圖片的內容?
- 19. 如何知道ALAsset網址是否包含視頻或圖片?
- 20. 如何在包含&符號的tvOs中指定圖片網址?
- 21. 如何在一個頁面中包含兩份crystalreports副本?
- 22. 如何在Inquisit的頁面元素中包含圖片?
- 23. 圖片/含量調整爲網頁調整大小,始終保持結構
- 24. 如何包含所有HTML,腳本和CSS整個網頁複製的Java
- 25. 彈出包含整個頁面
- 26. 未包含在Azure網站備份中的數據庫
- 27. 在網頁中包含動態圖像
- 28. 將ib_logfiles包含在備份中?
- 29. 你如何執行mysql包含與python中的網址?
- 30. 從網頁下載圖片使用python
你真的需要在python中做到這一點?用'wget -p'來做你想做的事情要容易得多。這也將檢索顯示頁面所需的圖像和其他鏈接。您可以使用'wget -L'或'wger -np'來播放廣告內容。 –