我想抓取一個網站,但問題是,它充滿了JavaScript的東西,比如按鈕,並且使得按下它們時,它們不改變URL,但頁面上的數據被改變。我如何處理JavaScript的一個Perl的網絡爬蟲?
我通常使用LWP /機械化等抓取網站,但是都不支持JavaScript的。 有什麼想法?
我想抓取一個網站,但問題是,它充滿了JavaScript的東西,比如按鈕,並且使得按下它們時,它們不改變URL,但頁面上的數據被改變。我如何處理JavaScript的一個Perl的網絡爬蟲?
我通常使用LWP /機械化等抓取網站,但是都不支持JavaScript的。 有什麼想法?
另一種選擇可能是Selenium與WWW::Selenium模塊
WWW::Scripter該模塊具有JavaScript plugin可能是有用的。但不能說我自己使用過它。
WWW::Mechanize::Firefox可能是有用的。這樣你可以讓Firefox處理複雜的JavaScript問題,然後提取合成的html。
iMacros都爲IE /火狐/ Chrome是一個非常靈活的Web刮,並且可以從Perl的控制:http://wiki.imacros.net/Perl
我建議HtmlUnit和Perl包裝:WWW::HtmlUnit。