Python的XPath來查找包含@domain

我正在尋找正確的XPath表達式來搜索HTML頁面包含字符串的所有文本（）文本（）：在比賽提取物，直到第一@domainPython的XPath來查找包含@domain

只是爲了獲取電子郵件地址 - 在左邊，直到在右邊的第一個空間的空間。

感謝

2012-07-30 DjangoPy

此XPath查詢將獲得一個包含 '@domain' 的所有節點的文本

//*[contains(text(), '@domain')]/text()

然後可以分析文本使用Python

提取電子郵件

>>> import re 
>>> re.findall(r'[\w\.][email protected]\.[\w\.]+', 'this is our info: [email protected]') 
['[email protected]']

UPDATE ：

看起來像scrapyXPath選擇，我不知道：

>>> hxs.select('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)') 
[u'My image 1', 
u'My image 2', 
u'My image 3', 
u'My image 4', 
u'My image 5']

來源

2012-07-30 14:41:39 warvariuc

你能幫我解決我的問題嗎？例如，如果這個字符串被提取：「這是我們的信息：[email protected] 結果應該只有[email protected] – DjangoPy 2012-07-30 14:52:13

我已經添加了一個正則表達式的例子，它太簡單了，所以你可能要學習正則表達式和改進。有電子郵件地址的正則表達式的計算器例子很多。 – warvariuc 2012-07-30 14:59:42

感謝！是否有你所使用的findall的findall返回一個字符串的元組找到了一個理由嗎？（只是爲了找到所有的電子郵件？） – DjangoPy 2012-07-30 15:03:09

Python的XPath來查找包含@domain

回答

相關問題