2015-12-09 46 views
1

我想爲sbrodds.com寫一個抓取引擎。不幸的是我需要登錄才能獲取正確的數據。我研究機械化和硒,但我很遺憾在python和web scraping上很差,並且我不瞭解如何使用這些。基於Javascript的網頁登錄頁面抓取

這裏是Chrome的截圖檢查內容頁面的登錄框: Chrome Inspect Results

可有人請提供建議,以什麼技術,我應該用它來執行登錄到這個網站Python代碼裏面?目標是最終將登錄頁面的數據加載到BeautifulSoup中。

+0

http://stackoverflow.com/questions/23102833/how-to-scrape-a-website哪位-需要使用的Python登錄 - 和 - beautifulsoup – bryce

回答

0

通常只是請求就足夠了......爲什麼你需要基於javascript的?

import requests 
r = requests.Session() 
r.post("http://sbrodds.com/login",{"username":"bob","password":"sagat"}) 

content = r.get("http://sbrodds.com/some_page").text 

類似的東西,至少......(你可能需要一個csrf_token或某事爲好)