2013-04-13 91 views
-5

某些網頁在加載時並不顯示完整的內容,但只顯示部分內容,以節省加載時間。如何通過python獲取網頁的完整內容

如果用戶向下拖動滾動條,將顯示越來越多的內容。

我的問題是 - 如何通過python獲取網頁的完整內容?

在開始時我嘗試

content = urlopen('http://www.kickstarter.com/projects/597507018/pebble-e-paper-watch-for-iphone-and-android/backers') 

但只獲得頁面的第一部分。

謝謝。

+3

這實在太寬泛了一個問題。不同的網站使用不同的技術來創建動態內容。我們可以用這個主題填寫一本書。 –

+0

@MartijnPieters感謝您的評論。我曾認爲有一個通用的方法來做到這一點。對不起,「太廣泛的問題」。我在我的代碼中添加了特定的網址。再次感謝。 – Landy

回答

0

正如Martijn Pieters指出的,有很多方法可以通過各種網站來完成。因此,您可能需要使用無頭瀏覽器。這裏有一個問題一個鏈接,這是討論:

Headless Browser for Python (Javascript support REQUIRED!)

在這個問題上,理查德給出了以下的答案,你可能會發現usefule:

我使用的WebKit作爲一個無頭的瀏覽器通過PyQt的/ pyside的Python: http://www.riverbankcomputing.co.uk/software/pyqt/download http://developer.qt.nokia.com/wiki/Category:LanguageBindings::PySide::Downloads

我特別喜歡WebKit的,因爲它是簡單的設置。對於Ubuntu的你只需要使用:

須藤APT-得到安裝python-qt4的

下面是一個示例腳本: http://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/

我希望這有助於。

P.S .:對於將來的問題,儘量不要對你的問題更具體一些,所以你不會被其他人投票。


編輯:2013年4月13日19:00 CAT

看你更新的問題,你正在調查特定的URL後,我打開它在Chrome和檢查網絡請求與開發工具,而且我看到,當你到達頁面的底部會發生什麼,它調用以下格式的URL:

http://www.kickstarter.com/projects/597507018/pebble-e-paper-watch-for-iphone-and-android/backers?cursor=675683697 

你只需要使用以前的HTML來確定合適的光標值使用。

+0

感謝您的回答。我已經用特定的網址修改了我的問題。 – Landy

+0

我真的從你的帖子中學到了很多東西。再次感謝。 – Landy

+0

我很高興。如果您喜歡答案,點擊答案左側的向上箭頭可以使其得到滿意的結果。 – ralfe