我試圖用幻影和python刮亞馬遜價格。我想用美麗的湯來解析它,以獲得書籍的新舊價格,問題是:當我通過phantomjs的請求源時,價格只有0,00,代碼就是這個簡單的測試。亞馬遜網站刮
我是新的網絡抓取,但我不明白,如果是亞馬遜誰有措施,以避免刮價格或我做錯了,因爲我試圖與其他更簡單的頁面,我可以得到的數據我想。
PD我在一個國家不支持使用亞馬遜的API,這就是爲什麼刮刀是necesary
import re
import urlparse
from selenium import webdriver
from bs4 import BeautifulSoup
from time import sleep
link = 'http://www.amazon.com/gp/offer-listing/1119998956/ref=dp_olp_new?ie=UTF8&condition=new'#'http://www.amazon.com/gp/product/1119998956'
class AmzonScraper(object):
def __init__(self):
self.driver = webdriver.PhantomJS()
self.driver.set_window_size(1120, 550)
def scrape_prices(self):
self.driver.get(link)
s = BeautifulSoup(self.driver.page_source)
return s
def scrape(self):
source = self.scrape_prices()
print source
self.driver.quit()
if __name__ == '__main__':
scraper = TaleoJobScraper()
scraper.scrape()
只是供參考,你不應該說你正在這樣做,這是對亞馬遜的ToS,你可能會遇到很大的麻煩。 – 2015-03-31 22:11:39
你在哪裏刮東西? – 2015-03-31 22:17:40
@PadraicCunningham是的,顯然這與網絡抓取完全無關。而類名是'AmzonScraper',所以它是關於'Amzon'商店 - 一個完全不同的網上商店。 – alecxe 2015-03-31 23:36:34