2017-02-03 23 views
0

我使用Python和硒從下面的網站提取數據: http://www.worldhospitaldirectory.com/klinik-fur-anaesthesiologie-und-intensivmedizin/info/4181硒與Python:如何拉動沒有ID和類的數據?

Screenshot of Page 正如你可以從圖中看到的。我想獲得醫院名稱,類別,地址,國家,電話,網站和電子郵件。

但是當我檢查元素時,我發現沒有id或類名要做。
類別: 綜合醫院
地址: .....

我真的不知道如何從這個網站拉他們。 請幫我或給我一些建議。

+0

嘗試使用XPath –

+0

你可以只拉'outerHTML'並解析它像一個字符串。 –

+0

如果語言沒有改變,那麼你可以使用一些基於文本的xpaths,或者如果結構是相同的,每次都是一樣的,那麼你可以嘗試基於位置。 – lauda

回答

0

,你應該能夠找到包含 '類別' 文本(下面的C#代碼)的HTML標籤:

var category = driver.FindElement(By.XPath("//b[contains(., 'Category')]")); 

[編輯]

來獲取元素的文字:

var textOfCategoryField = category.Text; 

並且從其他字段獲取值只需替換每個元素的字符串'Category':

var textOfAddressField = driver.FindElement(By.XPath("//b[contains(., 'Address')]")).Text; 
var textOfCountryField = driver.FindElement(By.XPath("//b[contains(., 'Country')]")).Text; 

等。

+0

謝謝。我試過了。它努力從網頁上拉取'Catergory:'。但是我想在這個Catergory之後得到這段文字:我該怎麼辦?我可以使用Xpath來找到它們嗎? –

+0

在元素 –

+0

上使用Text屬性謝謝Jakub,現在我只能得到文本「Category:」。原來的網絡來源是這樣的類別:綜合醫院
,我不能得到文本「一般hosiptals」。 –