我一直在做網頁抓取工作,現在總是被卡在使用javascript加載數據的網頁上。
我在使用HTML單元的這樣的頁面上有一定程度的成功,但有時Htmlunit會拋出這些不尋常的異常,並最終無法加載頁面。那麼我不得不說這是一個使用HTML單元的命中和錯過。
有沒有具體的方法來實現它?
但就我而言,我還沒有深入研究HTML單元。那麼你的建議是什麼?我應該堅持HTMLunit還是有其他好方法(庫)來實現JavaScript處理?
使用javascripts在網頁上抓取網頁
爲了記錄我使用Java作爲我的主要語言。
您可以使用類似[phantom.js(HTTP: //phantomjs.org/)來重建實際的頁面,然後使用它來抓取。 – Sirko
希望下面的鏈接幫助.. http://stackoverflow.com/questions/5561950/how-to-scrape-https-javascript-web-pages http://stackoverflow.com/questions/260540 /你怎麼做屏幕刮阿賈克斯頁 http://stackoverflow.com/questions/16762127/scraping-data-from-website-that-uses-javascript –