因此,我有一個nokogiri網絡刮在我的本地機器上完美運行。使用代理與鐵路網址鏈接
但是,當我嘗試在我的生產環境中運行Web Scrape時,會出現403錯誤代碼。
我相信這是下降到網站擋住了我我的服務器的IP(可能是因爲以前人們使用的IP封鎖它)
是否有可能路線從我的Web服務器通過代理服務器的引入nokogiri請求?如果是這樣,我會怎麼做呢?
這是我現在的代碼。
doc = Nokogiri::HTML(open(URL HERE, 'User-Agent' => 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.854.0 Safari/535.2'))
你從哪裏得到403?從您試圖抓取的網站上找到? – thesecretmaster
確實我是,我的印象是他們已經阻止了服務器的IP地址,這就是爲什麼我想到了一個代理 –
你可以使用Mechanise和代理嗎?看[這裏](http://stackoverflow.com/questions/18348673/how-do-i-configure-a-ruby-mechanize-agent-to-work-through-the-charles-web-proxy)或[這裏](https://gist.github.com/emergent/3983870) –