基於Javascript的網頁登錄頁面抓取

我想爲sbrodds.com寫一個抓取引擎。不幸的是我需要登錄才能獲取正確的數據。我研究機械化和硒，但我很遺憾在python和web scraping上很差，並且我不瞭解如何使用這些。基於Javascript的網頁登錄頁面抓取

這裏是Chrome的截圖檢查內容頁面的登錄框：

可有人請提供建議，以什麼技術，我應該用它來執行登錄到這個網站Python代碼裏面？目標是最終將登錄頁面的數據加載到BeautifulSoup中。

2015-12-09 Adam Turner

http://stackoverflow.com/questions/23102833/how-to-scrape-a-website哪位-需要使用的Python登錄 - 和 - beautifulsoup – bryce

通常只是請求就足夠了......爲什麼你需要基於javascript的？

import requests 
r = requests.Session() 
r.post("http://sbrodds.com/login",{"username":"bob","password":"sagat"}) 

content = r.get("http://sbrodds.com/some_page").text

類似的東西，至少......（你可能需要一個csrf_token或某事爲好）

來源

2015-12-09 23:59:01

基於Javascript的網頁登錄頁面抓取

回答

相關問題