python是否有任何方式下載整個HTML頁面及其內容(圖像,CSS)到本地文件夾給定的URL。並更新本地html文件以在本地挑選內容。下載html頁面及其內容
31
A
回答
29
可以使用urllib
模塊下載單獨的URL,但這將只是返回數據。它不會解析HTML並自動下載CSS文件和圖像等內容。
如果你想下載「整個」頁面,你需要解析HTML並找到你需要下載的其他東西。你可以使用像Beautiful Soup這樣的東西來解析你檢索的HTML。
This question有一些示例代碼正是這樣做的。
6
可以使用urlib:
import urllib.request
opener = urllib.request.FancyURLopener({})
url = "http://stackoverflow.com/"
f = opener.open(url)
content = f.read()
8
你在找什麼是鏡像工具。如果你想在Python中使用Python,PyPI列出了spider.py,但我沒有經驗。其他人可能會更好,但我不知道 - 我使用'wget',它支持getting the CSS和圖像。這可能是你想要(從the manual報價)
只檢索一個HTML頁面,但要 確保需要 該頁面中的所有元素來顯示,比如 內嵌圖像和外部風格 表什麼,也下載。也可以通過 確認下載的頁面引用了 的下載鏈接。
wget -p --convert-links http://www.server.com/dir/page.html
相關問題
- 1. 下載HTML頁面,檢查內容
- 2. 隱藏jquery選項卡及其內容,直到頁面加載
- 3. 將新內容加載到HTML頁面
- 4. 下載一個圖像內容爲HTML的註釋頁面
- 5. 重複下載頁面的html內容的最快方法
- 6. 使用python下載幾個html頁面的內容
- 7. 在其他jsp頁面讀取jsp頁面內容到html
- 8. 從其他頁面更改HTML頁面的內容
- 9. 刪除HTML實體及其內容
- 10. Chrome擴展加載內容頁面中的HTML頁面
- 11. 頁面加載HTML頁面的不同內容
- 12. 更改html頁面內容
- 13. 動態HTML頁面內容
- 14. 動態加載jar及其內容
- 15. TextView及其內容
- 16. 按鈕下載HTML頁面
- 17. 加載頁面內容
- 18. 在頁面加載時隱藏div及其所有內容而不閃爍
- 19. 將頁面保存爲html以及內容
- 20. HTML Jquery.ajax將HTML文檔內容發佈到其他頁面
- 21. 保存其內容的HTML頁面,替換HTML文件本身
- 22. 複製Facebook頁面及其所有內容
- 23. 在下一頁加載母版頁的html內容
- 24. 下載Java內的網頁及其資源
- 25. 從其他頁面加載和重新加載內容
- 26. 加載HTML頁面與Java的容器從頁面容器
- 27. 加載內容在頁面加載
- 28. 強制網頁瀏覽器下載整個頁面內容
- 29. 〜/ Views/Web.config及其內容
- 30. 移動DIV及其內容
這隻會出現下載頁面考慮HTTP響應代碼;它實際上並沒有下載頁面資源,除非我錯過了一些東西。 – bdeniker 2014-06-30 08:13:58