我已經寫了使用硒組合蟒蛇擺脫它不顯示,直到滾動最下面的所有鏈接網頁上的所有公司鏈接腳本的所有鏈接。但是,當我運行我的腳本時,我會得到期望的鏈接,但是有很多重複的內容正在被抓取。在這一點上,我不明白我怎樣才能修改我的腳本來獲得獨特的鏈接。這是我迄今爲止所嘗試的:我的劇本一再解析從無限滾動網頁
from selenium import webdriver
import time
driver = webdriver.Chrome()
driver.get('http://fortune.com/fortune500/list/')
while True:
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(3)
for items in driver.find_elements_by_xpath("//li[contains(concat(' ', @class, ' '), ' small-12 ')]"):
item = items.find_elements_by_xpath('.//a')[0]
print(item.get_attribute("href"))
driver.close()
感謝喬治·麥康,爲您完美的和可靠的解決方案。它按我想要的那樣工作。 – SIM