當前正在使用javascript進行搜索的房地產網站。我的過程首先爲包含單個列表的包含多個不同href鏈接的列表開始,將這些鏈接附加到另一個列表,然後按下一個按鈕。我這樣做直到下一個按鈕不再可點擊。使用selenium,beautifulsoup和python進行網頁掃描
我的問題是,收集所有列表(~13000鏈接)後,刮板不會移動到第二部分,打開鏈接並獲取我需要的信息。 Selenium甚至不打開鏈接列表的第一個元素。
繼承人我的代碼:
wait = WebDriverWait(driver, 10)
while True:
try:
element = wait.until(EC.element_to_be_clickable((By.LINK_TEXT, 'next')))
html = driver.page_source
soup = bs.BeautifulSoup(html,'html.parser')
table = soup.find(id = 'search_main_div')
classtitle = table.find_all('p', class_= 'title')
for aaa in classtitle:
hrefsyo = aaa.find('a', href = True)
linkstoclick = hrefsyo.get('href')
houselinklist.append(linkstoclick)
element.click()
except:
pass
在此之後我還有一個簡單的刮刀,通過列表的例子不勝枚舉,打開它們的硒和收集對目錄資料。
for links in houselinklist:
print(links)
newwebpage = links
driver.get(newwebpage)
html = driver.page_source
soup = bs.BeautifulSoup(html,'html.parser')
.
.
.
. more code here
您正在刮的鏈接在哪裏? – ksai
https://www.28hse.com/cn/rent/house-type-g1 – bathtubandatoaster
你得到了什麼錯誤? – ksai