2013-02-07 17 views
2

我正在尋找一個模塊,它將捕獲在瀏覽器中顯示的所有數據(如Firefox)。它需要捕獲所有CSS/JS/AJAX數據。我試圖使用LWP::UserAgent這是一些如何不捕獲所有的數據。無論數據如何顯示,Perl模塊都可以捕獲任何和所有網頁數據?

如果你想看看網頁,我看到的是:

http://finance.yahoo.com/q?s=SAPE&ql=1 

你可以看到,有他們的菜單欄下的水平條(住房,投資,新聞,個人理財等)包含例如日期和時間信息:

星期三,2013年2月6日,下午8:10 EST - 美國市場休市

這可以用任何瀏覽器中可以看出,但是當Perl中提取網頁中的日期,時間,以及市場是開放的還是封閉的都不在捕捉的數據中一個。

我是否需要使用Wireshark來嗅探我需要什麼,或者是否有一個模塊會複製瀏覽器並捕獲這些數據,或者有更好的方法嗎?

我想LWP::UserAgent捕獲所有數據,但顯然我錯了..

感謝。

+0

雅虎制裁網站在他們的託管? – Zaid

+0

相關:http://stackoverflow.com/questions/14654288 – mob

回答

1

如果您採用頁面的「查看源代碼」,這主要是LWP :: UserAgent看到的。要獲取包含動態加載的ajax數據的頁面,基於javascript等構建的菜單,您需要將頁面加載到Web瀏覽器或node.js或phantomJs或類似的工具中,這些工具可以運行javascripts並構建頁面,你看到它。然後使用他們的DOM模型來查找相關數據(例如使用jQuery)。

相關問題