2013-07-29 60 views
0

我想從NY times得到文章標題。如何訪問由javascript生成的html信息?

但我認爲html是由javascript生成的,因爲它只在Firefox上使用'inspect元素'時纔可見。 我怎樣才能找到文章?或許,其中一種方法是模擬瀏覽器,但似乎過度殺毒。 我寧願在Java中這樣做,但Python也沒關係。感謝您的幫助!

編輯: 我試過使用api。但有很多不好的網址(找不到頁面)。任何人有關於如何獲得網址和標題的更多想法?

回答

0

Selenium可能是你在找什麼;這是一個瀏覽器自動化框架。

您可以使用Python,但Selenium實際上使用Firefox來解析網站的內容(上次我聽說過)。

您可以獲得python版本here,但還有其他options

0

你可以嘗試使用沒有GUI的瀏覽器,如HtmlUnit。它具有良好的JavaScript支持,並且可以從Java程序中讀取頁面的內容。

0

作爲這個特定問題的替代解決方案,如何使用New York Times API?他們提供了JavaScript支持的JSONP。如果他們改變網站佈局,使用API​​可能會更有前途。