我正在使用Phantomjs在硒中從摘錄中給出的鏈接刮取數據。在用phantomjs(web_element)中的element.text提取數據時,我得到了一些空白值,就像我使用chromedriver那樣,我能夠刪除所有數據。使用PhantomJS和硒刮取網頁數據
我只能運行使用無頭的瀏覽器,因爲我在AWS Linux服務器
運行它,我怎麼能刮中的所有數據,而不會錯過使用phantomjs。這裏期待一些幫助......謝謝你提前
下面是連接
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.common.exceptions import NoSuchElementException
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = (
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/53 "
"(KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36")
driver = webdriver.PhantomJS(desired_capabilities = dcap,service_args=['--ignore-ssl-errors=true', '--load-images=false'])
driver.get("http://www.myntra.com/Dresses/Casual-Collection/Casual-Collection-by-Debenhams-Purple-Floral-Print-Maxi-Dress/348207/buy")
driver.implicitly_wait(5)
try:
driver.find_element_by_class_name("size-buttons-show-size-chart").click()
driver.implicitly_wait(10)
div_s = driver.find_elements_by_class_name("size-chart-cell")
# div_s = driver.find_elements_by_xpath("""//*[@id="mountRoot"]/div/div/div/div[3]/div/div[2]/div[1]/table/tbody/tr""")
size_data = ''
for s in div_s:
print str(s.text)
except NoSuchElementException:
print "NoSuchElementException"
修改輸出的片段:
尺寸XS SML XL XXL 3XL
品牌大小UK10 UK12 UK14 UK16 UK18 UK20 UK22
臀圍(英寸)36 38 40 42.5 45.25 48 50.75
31 41.75#大多數元素是錯誤的唱/不能刮?
胸圍(英寸)34.25 36.25 38 40 43.75 46.5 49.25
也許等待的時間太長短。嘗試'driver.implicitly_wait(30)' –
我已經試過這個...這不是我的問題 –