2016-11-23 83 views
0

我目前正在處理房地產數據,並想從StreetEasy中獲取一些數據,這些數據是Register to see what it closed for about 2 months ago以下的價格。需要登錄才能修改StreetEasy頁面

示例URL http://streeteasy.com/sale/1220187

我需要的數據需要登錄,但登錄機制是非常不同的。沒有登錄頁面,登錄是彈出窗口。無論如何,我可以使用Python來獲得身份驗證並登錄後訪問頁面,如下圖所示?

+0

我實際上在做一些非常相似的事情,請記住,不要與房地產網站。你有沒有想過使用諸如「phantomjs」和「selenium」之類的東西? – Carlos

回答

0

通過Selenium和PhantomJS,您可以在抓取數據時獲得強大的組合。

from selenium import webdriver 

host = "http://streeteasy.com/sale/1220187" 

driver = webdriver.PhantomJS() 

# Set the "window" wide enough so PhantomJS can "see" the right panel 
driver.set_window_size(1280, 800) 
driver.get(host) 

driver.find_element_by_link_text("Register to see what it closed for").click() 

driver.save_screenshot("output.jpg") 

你看到的是硒能如何讓你的網頁登錄(通過JPG擷取畫面驗證)一個小片段。從那裏,這是一個切換登錄框的問題,提供憑據和click()你的方式。

哦,並注意TOS。祝你好運!

相關問題