2
我已經爲840個網址颳了一個網站... 當我爲更多的隱私信息重新命名網址時,我的python scraper沒有收錄與手動點擊鏈接相同的數據。網站跟蹤鏈接與手動瀏覽不一樣
例如,當我訪問這個網站,https://salesweb.civilview.com/Sales/SalesSearch
如果我點擊列表中的第一個「細節」,把它帶到一個頁面,瞭解更多信息。
所給出的信息是相對鏈接顯示「/銷售/ SaleDetails?屬性ID = 254119896」
我颳了「細節」相對鏈接,然後重建鏈接相匹配的絕對地址。 這個地址變成
https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119896
但是我這樣做,並嘗試刮的時候,我一共拿到了不同的數據集,並帶我到一個普通的着陸頁。
https://salesweb.civilview.com/
我起初以爲,我需要使用模擬瀏覽器來解決這個問題,但是現在我不知道。
這裏是我的代碼:
import time
from selenium import webdriver
baseurl='https://salesweb.civilview.com'
link='/Sales/SaleDetails?PropertyId=254119946'
url1=baseurl+link
driver = webdriver.PhantomJS()
driver.get(url1)
html = driver.page_source
time.sleep(10)
driver.quit()