2013-04-30 31 views
1

您好我希望有人能幫助我,創建一個python腳本登錄到一個網站,並拉HTML數據

我試圖創建一個登錄到網站,並拉動從HTML我有一個值的腳本安裝BeautifulSoup和我試圖使用捲曲,但我似乎無法登錄到該網站。網站上的HTML使用爲j_username」和爲j_password

感謝

+0

我已經建立了幾個爬蟲與PyCurl + BeautifulSoup + Chrome開發者控制檯......這就是你需要 – jabaldonedo 2013-04-30 16:11:57

+0

使用'PyCurl'?HTTP基本身份驗證或其他任何特定的錯誤? – Bryan 2013-04-30 16:32:40

+0

沒有這個網站使用Windows憑據? – 2013-04-30 16:50:18

回答

0

使用requests模塊要使用基本身份驗證檢索HTML:

>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass')) 
>>> html = r.text 

然後使用bs4解析HTML您需要的具體內容。