2012-11-15 98 views
0

我是python的新手,需要您的建議。 我需要獲取由php/java/ajax生成的論壇頁面的內容。 該代碼包含由php/java/ajax添加到頁面的所有元素。 是否可以閱讀完整的頁面源代碼? urlopen()只給出原始的源代碼。如何使用python獲取論壇頁面的內容

+0

我想他是指一些JS/AJAX而不是底層的PHP代碼之後的網站的HTML代碼。 – Andreas

+0

是的,對,一些JS/AJAX後的HTML代碼。 – user1826398

+0

你說得對。我刪除了我的評論。它們無效...... –

回答

2

qt4庫集包括webkit引擎。這意味着你可以使用它來首先渲染頁面,然後解析生成的HTML。有一個項目,據我所知,這是Google Project Hosting

而這裏是一個link另一個樣品,只有qt4。一定要查看評論,他們談論確保所有ajax內容已經加載。

+1

我喜歡這個解決方案。這對我們的夜間測試也是一個好主意。但當然qt不是一個輕量級的解決方案...我想只是做重要的AJAX調用應該更快。但是如果他需要整個HTML,那麼這真的是一個很好的解決方案。 – Andreas

+0

我知道它不是輕量級的。但是你指出來很好。 :-) –

0

Selenium非常適合您的任務。 這是很酷的圖書館,可用於許多語言(原因including Python)瀏覽器自動化。

+0

非常感謝大家的評論和有用的鏈接! 現在我有大量的信息來學習! – user1826398