2010-11-02 70 views
0

請幫助從HTML標籤中提取文本,我有以下HTML文本:使用Python正則表達式

Country/<i>List it here</i><br><font color="#ff00ff">Dubai</font><br><br> 

我如何提取「迪拜」了上面的HTML嗎?我有幾百條這樣的線,很急迫,所以沒有研究BeautifulSoup或XML解析器的實現。

非常感謝!

回答

2

既然你只是想要的東西快速和骯髒的,你可以使用:

re.match(r'.*>([^<>]*)</font>.*', s).group(1) 

這只是抓住所有的非角brackety事情關閉字體標記之前。再次,不適合「真正的」解析。

+0

太棒了,創造奇蹟!謝謝! – ThinkCode 2010-11-02 22:10:34