硒與Python：如何拉動沒有ID和類的數據？

我使用Python和硒從下面的網站提取數據： http://www.worldhospitaldirectory.com/klinik-fur-anaesthesiologie-und-intensivmedizin/info/4181 硒與Python：如何拉動沒有ID和類的數據？

Screenshot of Page 正如你可以從圖中看到的。我想獲得醫院名稱，類別，地址，國家，電話，網站和電子郵件。

但是當我檢查元素時，我發現沒有id或類名要做。
類別： 綜合醫院
地址： .....

我真的不知道如何從這個網站拉他們。請幫我或給我一些建議。

來源

2017-02-03 Peter Cui

嘗試使用XPath –

你可以只拉'outerHTML'並解析它像一個字符串。 –

如果語言沒有改變，那麼你可以使用一些基於文本的xpaths，或者如果結構是相同的，每次都是一樣的，那麼你可以嘗試基於位置。 – lauda

，你應該能夠找到包含 '類別' 文本（下面的C＃代碼）的HTML標籤：

var category = driver.FindElement(By.XPath("//b[contains(., 'Category')]"));

[編輯]

來獲取元素的文字：

var textOfCategoryField = category.Text;

並且從其他字段獲取值只需替換每個元素的字符串'Category'：

var textOfAddressField = driver.FindElement(By.XPath("//b[contains(., 'Address')]")).Text; 
var textOfCountryField = driver.FindElement(By.XPath("//b[contains(., 'Country')]")).Text;

等。

來源

2017-02-04 11:04:33

謝謝。我試過了。它努力從網頁上拉取'Catergory：'。但是我想在這個Catergory之後得到這段文字：我該怎麼辦？我可以使用Xpath來找到它們嗎？ –

在元素 –

上使用Text屬性謝謝Jakub，現在我只能得到文本「Category：」。原來的網絡來源是這樣的類別：綜合醫院
，我不能得到文本「一般hosiptals」。 –

硒與Python：如何拉動沒有ID和類的數據？

回答

相關問題