Python網絡爬蟲

-3

是否有任何蟒蛇爬蟲從網頁拉出所有數據爲例：http://www.bestbuy.com/site/HTC+-+One+S+4G+Mobile+Phone+-+Gradient+Blue+%28T-Mobile%29/4980512.p?id=1218587135819&skuId=4980512&contract_desc= 在這個頁面中，客戶評論有兩個頁面1和2。我想抓取他的網址，並獲得兩個頁面。這可能與一個python爬蟲。Python網絡爬蟲

也做蟒蛇履帶支持所有現代GET/POST技術

來源

2012-07-26 Rajeev

相反，你可以看到，如果百思買有API可以爲你工作。 – 2014-05-06 21:40:55

你可以使用Scrapy：

Scrapy是一個快速的高層次的屏幕抓取和Web爬行框架，用來抓取網站和從他們的頁面提取結構化數據。它可用於廣泛的用途，從數據挖掘到監視和自動化測試。

來源

2012-07-26 13:32:00

如果您要抓取網站，請參閱this post。如果你只是想處理一些網頁，並分析其內容（這意味着你知道你要處理的URL），嘗試BeautifulSoup，它可以讓你做這樣的事情：

page = urllib2.urlopen(url) 
soup = BeautifulSoup(page.read()) 
for f in soup.findAll('form'): 
    target_url = f['action'] 
    #do something with each one of the forms

來源

2012-07-26 14:47:48 gutes

Python網絡爬蟲

回答

相關問題