我想抓取/抓取很多嚴重依賴Javascript的網站,這是我的Mechanize代理(我通常使用的)無法處理的,因爲它無法呈現html。一個很好的例子是this site。用Ruby爬行JavaScript重量網站
有什麼辦法從Ruby on Rails應用程序中獲取該網站的呈現html輸出嗎?
我使用Ruby 2.0.0和Rails 4.0.1
我想抓取/抓取很多嚴重依賴Javascript的網站,這是我的Mechanize代理(我通常使用的)無法處理的,因爲它無法呈現html。一個很好的例子是this site。用Ruby爬行JavaScript重量網站
有什麼辦法從Ruby on Rails應用程序中獲取該網站的呈現html輸出嗎?
我使用Ruby 2.0.0和Rails 4.0.1
您可以使用我宏進行網頁瀏覽。您提到的網站使用框架。所以每個框架可以被視爲單獨的頁面和刮。作爲替代,您可以使用簡單的java程序,使用apache HttpClient/HtmlUnit API。
也許看看http://phantomjs.org –
你的選擇是弄清楚如何做到這一點或切換到像硒這樣的完整瀏覽器解決方案。 – pguardiario