抓取簡單的網頁非常簡單。 我可以從python's manumal抓取整個網站python
import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()
但如何獲取所有的網站看到了什麼? 任何人都可以提供我的代碼?
抓取簡單的網頁非常簡單。 我可以從python's manumal抓取整個網站python
import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()
但如何獲取所有的網站看到了什麼? 任何人都可以提供我的代碼?
使用BeautifulSoup解析網站,併爲每個鏈接重複該過程,除非它引導您在域外。
非常簡單,但如果您嘗試獲取動態內容,但沒有鏈接指向動態內容,它會變得非常複雜。
可以使用Scrapy的
您可以提取網頁上的鏈接,並跟蹤,如果你的過已經訪問過那個頁面或者沒有,並且這個url是否屬於同一個站點並且獲取它們。
您需要記住您爲了索引該頁面所需的嵌套級別。否則,你要檢索的頁面會成指數增長
beautifulsoup是一個很好的工具,它具有'findAll'功能。 +1 – Endophage 2012-04-18 22:16:39
謝謝,我現在檢查它。 – Bogdan 2012-04-18 22:18:58
@Bogdan:沒問題,只要記住不要取回你已經取得的東西(你可以通過簡單地將相對於服務器上的相對位置保存在光盤上的頁面來完成) - 這樣你就能夠看到如果該文件已經被加載)。 – Tadeck 2012-04-18 22:56:22