2013-03-05 28 views
0

我們開發了一個基於web的應用程序,用戶登錄等,我們開發了一個python應用程序,必須在此頁面上獲取一些數據。python打開網頁並獲取源代碼

有什麼方法可以與python和系統默認瀏覽器進行通信嗎? 我們的主要目標是打開一個帶有系統瀏覽器的網頁,並從中獲取HTML源代碼?我們嘗試使用python webbrowser,成功打開網頁,但無法獲取源代碼,並嘗試使用urllib2,在這種情況下,我認爲我們必須使用系統默認瀏覽器的cookie等,我不想這樣做,因爲安全。

+2

正確的方法通常使用urllib2,它* *支持cookies ... – 2013-03-05 14:45:15

回答

1

https://pypi.python.org/pypi/selenium

您可以嘗試使用Selenium,他做了測試,但沒有什麼能阻止你使用它作其他用途

+0

謝謝,這就是我需要的東西。 – user2136174 2013-03-05 15:16:03

+0

有沒有辦法讓硒連接已經打開瀏覽器? 當我使用webdriver.Chrome()或webdriver.Firefox()打開新的。 – user2136174 2013-03-05 16:57:47

0

如果你的網站是沒有JavaScript通航,那麼你可以嘗試Mechanize或。這些工具提供比urllib2更高級別的API,可讓您執行諸如網頁上的鏈接和填寫HTML表單等內容。

例如,這可能有助於導航使用基於cookie的身份驗證與HTML表單進行登錄的網站。

+0

我們使用了很多javascript,大部分是jquery。 – user2136174 2013-03-05 15:17:13

0

看看nltk模塊---它們有一些用於查看網頁和獲取文本的工具。還有BeautifulSoup,這是更詳細一點。我目前正在使用這兩種方式來抓取學習算法的網頁---它們是相當廣泛使用的模塊,所以這意味着你可以在這裏找到很多提示:)