如何加快python selenium find_elements？

我試圖從kompass.com上刮掉公司信息如何加快python selenium find_elements？

但是，由於每個公司配置文件提供不同數量的詳細信息，某些頁面可能缺少元素。例如，並非所有公司都有關於「協會」的信息。在這種情況下，我的腳本需要很長的時間來搜索這些缺失的元素。無論如何，我可以加快搜索過程嗎？

這裏是我的腳本摘錄：

import time 
import selenium 
from selenium import webdriver 
from selenium.webdriver.common.by import By 
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.support import expected_conditions as EC 
from selenium.common.exceptions import TimeoutException 
from selenium.common.exceptions import ElementNotVisibleException 
from lxml import html 

def init_driver(): 
    driver = webdriver.Firefox() 
    driver.wait = WebDriverWait(driver, 5) 
    return driver 

def convert2text(webElement): 
    if webElement != []: 
     webElement = webElement[0].text.encode('utf8') 
    else: 
     webElement = ['NA'] 
    return webElement 

link='http://sg.kompass.com/c/mizkan-asia-pacific-pte-ltd/sg050477/' 
driver = init_driver() 
driver.get(link) 
driver.implicitly_wait(10) 

name = driver.find_elements_by_xpath("//*[@id='productDetailUpdateable']/div[1]/div[2]/div/h1") 
name = convert2text(name) 

## Problem: 
associations = driver.find_elements_by_xpath("//body//div[@class='item minHeight']/div[@id='associations']/div/ul/li/strong") 
associations = convert2text(associations)

這需要超過一分鐘刮每一頁，我有超過26,000頁湊。

來源

2016-03-02 Seamus Lam

你'WebDriverWait'進口，但儘管這一事實使用'implicitly_wait（）'...爲什麼？ – Andersson

driver.implicitly_wait(10)告訴司機要等待長達10秒的元素在DOM存在。這意味着每次您查找不存在的元素時，都會等待10秒鐘。將時間縮短到2-3秒將提高運行時間。

另外，xpath是slowest selector，你通過給絕對路徑使它值得。你可以使用find_elements_by_id和find_elements_by_class_name。例如，你可以improve

driver.find_elements_by_xpath("//body//div[@class='item minHeight']/div[@id='associations']/div/ul/li/strong")

只需通過與associations ID

driver.find_elements_by_xpath("//*div[@id='associations']/div/ul/li/strong")

陳述或者將其更改爲css_selector

driver.find_elements_by_css_selector("#associations > div > ul > li > strong")

來源

2016-03-02 09:56:53 Guy

由於您的XPath不使用class和id以外的任何屬性來查找元素，因此您可以將搜索遷移到CSS選擇器。在不支持本機XPath搜索的IE瀏覽器中，這些可能會更快。

例如：

//body//div[@class='item minHeight']/div[@id='associations']/div/ul/li/strong

能成爲：

body .item .minHeight > #associations > div > ul > li > strong

來源

2016-03-02 09:49:14

在提供的代碼OP中使用Firefox的webdriver，所以它不會解決問題... – Andersson

似乎沒有幫助。需要花費相同的時間來搜索缺失的元素 –

@SeamusLam可以簡化一些XPath嗎？ // // body // div [@ class ='item minHeight']/div [@ id ='associations']/div/ul/li/strong'當然不需要初始'// // // // div []'部分，如果下面的div有一個唯一的標識符。 –

如何加快python selenium find_elements？

回答

相關問題