我有下面Explorer中瀏覽網頁,你可以看到這個頁面上,它是關於外匯交易和網站列表中的所有的真實交易記錄在這裏:如何閱讀完整的HTML源代碼與按鈕「多」
http://www.forexfactory.com/trades.php?reset=1
我通常使用python來閱讀背後的源代碼並通過BeautifulSoup解析信息。然而,在這種情況下,你可以看到,這裏是在窗格的最後一個「更多」點擊按鈕:
a busy cat http://i.minus.com/ibfq5BgLjta0Lo.jpg
如果我點擊它一個時間,交易的名單將延期一次,並在列表的末尾這裏是更多的點擊再次。點擊兩次或三次後,整個列表將完整顯示。我怎麼能讓python以編程代碼的方式點擊更多,然後我可以獲取貿易記錄的整個列表?
以下問題也是如此:通常,我們可以閱讀HTML源代碼,並使用一些解析技術從複雜標籤中獲取文本信息。但是,如果您不去源代碼,但使用鼠標選擇網絡的全部內容,然後點擊「ctrl + c」,那麼您可以看到瀏覽器中顯示的所有文本,而不需要複雜的標籤。我認爲這也可能是獲取信息的另一種方式。但是,似乎python只能讀取HTML源代碼,並且有沒有像我所描述的方式來簡單地選擇web的全部內容然後複製,然後我們得到一個包含整個文本信息而沒有標籤的長字符串?
非常感謝!
或pywebkitgtk或pyphantomjs或一些Python腳本瀏覽器。 – 2012-01-12 19:53:01