是否可以閱讀動態生成的HTML Web 2.0源代碼? 帶有其代理程序 - >響應的Perl LWP不會提取任何動態生成的HTML代碼。使用Perl閱讀Web 2.0 HTML源代碼
今天很多網站都在生成動態html。如果我正在購買最優惠的價格,並且價格是動態提取和傾銷的,那麼我就會停業。
我們到了一個時代的終點?
是否可以閱讀動態生成的HTML Web 2.0源代碼? 帶有其代理程序 - >響應的Perl LWP不會提取任何動態生成的HTML代碼。使用Perl閱讀Web 2.0 HTML源代碼
今天很多網站都在生成動態html。如果我正在購買最優惠的價格,並且價格是動態提取和傾銷的,那麼我就會停業。
我們到了一個時代的終點?
是的,我們已經到了不可靠的屏幕抓取時代的末期,以及定義良好的API時代的開始。
就我個人而言,我討厭「Web 2.0」這個詞,但至少Wikipedia列出了web APIs作爲整個事情的重要組成部分。
如果通過「Web 2.0 HTML」和「動態生成」您的意思是「DOM從JavaScript生成」,那麼您必須處理JavaScript。你可以手動做,並編寫代碼來從JS中抓取數據或使用JS所做的任何數據源,或者你可以使用JS感知解析器(我通常使用MozRepl這些天)。
請記住,許多網站的條款和條件禁止屏幕抓取。
最好的解決方案是使用穩定且不會改變的API。您希望從中獲取數據的網站的文檔可能會描述一個API,或者您可以聯繫開發人員,看看他們是否可以爲您提供一個。