2015-09-30 101 views
-1

我想從此Link中獲取公司名稱,電子郵件地址,電話號碼並將這些內容放入Excel文件中。我想爲網站的所有頁面做同樣的事情。我有邏輯來獲取瀏覽器中的鏈接並在它們之間切換。我無法從網站獲取數據。任何人都可以提供我對我寫的代碼的增強。如何從selenium webdriver的網頁中獲取數據

下面是我寫的代碼:

from selenium import webdriver 
from selenium.common.exceptions import NoSuchElementException 
from selenium.webdriver.common.keys import Keys 
import time 
from lxml import html 
import requests 
import xlwt 

browser = webdriver.Firefox() # Get local session of firefox 

# 0 wait until the pages are loaded 
browser.implicitly_wait(3) # 3 secs should be enough. if not, increase it 

browser.get("http://ae.bizdirlib.com/taxonomy/term/1493") # Load page 
links = browser.find_elements_by_css_selector("h2 > a") 

#print link 
for link in links: 
    link.send_keys(Keys.CONTROL + Keys.RETURN) 
    link.send_keys(Keys.CONTROL + Keys.PAGE_UP) 
#tree = html.fromstring(link.text) 
    time.sleep(5) 
+1

你已經試圖檢索這些數據?什麼沒有奏效?哪裏有問題? – drkthng

+0

我想從描述中的鏈接複製一些文本。我試圖編寫一個代碼來打開新標籤中的鏈接。我面臨的問題是複製這些細節,如公司名稱/電子郵件等,並將其粘貼到Excel文件中。我基本上想要網絡刮。 –

+1

所以你有幾個問題? 1)您無法在新標籤中打開鏈接? 2)你無法從這個新標籤中獲取公司名稱,電子郵件,電話號碼? 3)你不知道如何將數據放入Excel中?我對你有正確的理解嗎?如果是的話,範圍是太寬泛的一個問題在stackoverflow - > http://stackoverflow.com/help/how-to-ask – drkthng

回答

0

你嘗試過什麼,從這些鏈接獲取數據?我可以向你展示一個例子。如果你想獲得「S.S.D Middle East - F.Z.E」,點擊鏈接後,它有許多屬性,從公司名稱到行業。如果你想查找和檢索它的公司名稱,你需要先找到它,並得到其文本:

companyNameElement = browser.find_element_by_css_selector("div[class="region region-content"] span[itemprop="name"]"); 
companyName = companyNameElement.getText() 

你應該得到 - 在這種的companyName變量「S.S.D中東F.Z.E」。

+0

謝謝你的擡頭。但我試圖用CSS選擇器做一些事情。 'companyNameElement = [] companyNameElement = browser.find_elements_by_css_selector( 「content.clearfix> DIV>字段集> DIV> UL> LI>跨度」)。文本 #companyName = companyNameElement 打印companyNameElement' 還可以獲得文本不不行。 Google搜索引擎發現搜索是python Interpretor中的事情。但搜索給了我一個錯誤。 'companyNameElement = browser.find_elements_by_css_selector(「。content.clearfix> div> fieldset> div> ul> li> span」)。text AttributeError:'list'對象沒有屬性'text'' –

+0

不要深入作爲跨度,嘗試使用.content.clearfix> div> fieldset> div> ul> li查找此元素。li –

+0

我嘗試刪除span標記。變量companyNameElement包含一個空列表,即它打印一個空列表。當我添加 'browser.find_elements_by_css_selector(「。content.clearfix> div> fieldset> div> ul> li> span」)。** text **'。 Iterpreter給我一個錯誤'AttributeError:'列表'對象沒有任何屬性' –

相關問題