2016-01-21 49 views
-2

我使用import.io從網站中提取信息,但我僅在電子郵件字段中被刪除。我設法提取其他信息,但這對我來說有點混亂。我需要xpath從網站中提取這種代碼

這是我需要提取的網站上的代碼。而且這個網站有幾種價值,包括幾種電子郵件地址。

<td valign="top"><table width="100%" cellspacing="0" cellpadding="3" border="0" class="text_black-11"> 
<tbody> 
    <tr> 
    <td width="35" align="center" class="text_02-11"><img width="16" height="16" src="/interface/icon_www.png"></td> 
    <td class="text_02-11"><a target="" href="http://www.website.com" class="text_02-11">Visit Website</a></td> 
    </tr> 
    <tr> 
    <td width="35" align="center" class="text_02-11"><img width="19" height="12" src="/interface/icon_email.png"></td> 
    <td class="text_02-11"><a target="" href="mailto:[email protected]" class="text_02-11">Send Email</a></td> 
    </tr> 
</tbody> 

+3

這個元素有什麼獨特之處嗎?你能發佈整個HTML嗎? – Skatz1990

+0

我用完整的代碼編輯了我的問題中的代碼。 – Zarko

回答

1

,如果你不能直接針對電子郵件,它總是作爲一個hrefa標籤與mailto 裏面你可以試試這個

//a[contains (@href, 'mailto:')]/@href 

//a[contains (., 'Send Email')]/@href 

如果網站構建這樣

此外,如果要清理該字段選擇後,你可以將此正則表達式添加到正則表達式場內import.io

(?<=mailto:).* 

只是確保了XPath的工作原理第一

相關問題