2012-04-18 212 views
0

抓取簡單的網頁非常簡單。 我可以從python's manumal抓取整個網站python

import urllib2 
response = urllib2.urlopen('http://python.org/') 
html = response.read() 

但如何獲取所有的網站看到了什麼? 任何人都可以提供我的代碼?

回答

1

使用BeautifulSoup解析網站,併爲每個鏈接重複該過程,除非它引導您在域外。

非常簡單,但如果您嘗試獲取動態內容,但沒有鏈接指向動態內容,它會變得非常複雜。

+1

beautifulsoup是一個很好的工具,它具有'findAll'功能。 +1 – Endophage 2012-04-18 22:16:39

+1

謝謝,我現在檢查它。 – Bogdan 2012-04-18 22:18:58

+0

@Bogdan:沒問題,只要記住不要取回你已經取得的東西(你可以通過簡單地將相對於服務器上的相對位置保存在光盤上的頁面來完成) - 這樣你就能夠看到如果該文件已經被加載)。 – Tadeck 2012-04-18 22:56:22