2012-07-26 279 views
-3

是否有任何蟒蛇爬蟲從網頁拉出所有數據爲例:http://www.bestbuy.com/site/HTC+-+One+S+4G+Mobile+Phone+-+Gradient+Blue+%28T-Mobile%29/4980512.p?id=1218587135819&skuId=4980512&contract_desc= 在這個頁面中,客戶評論有兩個頁面1和2。我想抓取他的網址,並獲得兩個頁面。這可能與一個python爬蟲。Python網絡爬蟲

也做蟒蛇履帶支持所有現代GET/POST技術

+1

相反,你可以看到,如果百思買有API可以爲你工作。 – 2014-05-06 21:40:55

回答

12

你可以使用Scrapy

Scrapy是一個快速的高層次的屏幕抓取和Web爬行框架,用來抓取網站和從他們的頁面提取結構化數據。它可用於廣泛的用途,從數據挖掘到監視和自動化測試。

3

如果您要抓取網站,請參閱this post。如果你只是想處理一些網頁,並分析其內容(這意味着你知道你要處理的URL),嘗試BeautifulSoup,它可以讓你做這樣的事情:

page = urllib2.urlopen(url) 
soup = BeautifulSoup(page.read()) 
for f in soup.findAll('form'): 
    target_url = f['action'] 
    #do something with each one of the forms