2015-09-27 71 views
-3

我是一個使用python的硒的noob。我試圖從這個鏈接獲取一些數據:http://www.dcciinfo.com/dirinfo/companies/all/10888?start=30,我想要獲取的數據是公司名稱,然後放入excel中,同時複製鏈接並將其粘貼到同一個excel列中。接下來它應該繼續提到下一個公司。有人可以幫助我,並給我一些提示如何從一家公司轉移到另一家公司。我無法通過使用id,xpath來識別。在下一頁中必須重複相同的操作,併爲所有65頁完成。如何從硒的網站中獲取單獨的公司名稱

我剛纔寫的基本代碼硒:

browser = webdriver.Firefox() # Get local session of firefox 
browser.get("http://www.dcciinfo.com/dirinfo/companies/all/10888?start=30") # Load page 
x=browser.find_element_by_xpath("//*[@id='content']/form/div[1]/div[4]/div[1]") 

回答

0

使用.find_elements_by_xpath這將返回元素列表。然後你可以循環它。也可以使用//*[@id="content"]/form/div/div/div[1]/a代替當前的xpath

+0

不用它不點擊元素,使用你已經給出的xpath!當你說循環,我應該循環什麼變量? –

+0

@EbrahimShariff這給你一個元素列表。在'x'上使用for循環,並在其元素上使用click方法 – MadRabbit

0

我更喜歡CSS選擇器到XPath。這應該使你朝着正確的方向前進。

browser.get("http://www.dcciinfo.com/dirinfo/companies/all/10888?start=30") # Load page 
companies = browser.find_elements_by_css_selector("div.title > a") 
for company in companies: 
    company.text // put this in Excel as the company name 
    company.get_attribute("href") // put this in Excel as the company URL 

companies是包含要的數據A標籤的列表。 href包含公司的URL,.text包含公司的名稱。

相關問題