2012-11-29 123 views
2

我在Python中正則表達式有點麻煩。 HTML字符串是:正則表達式非ASCII字符

html = <td style="padding-right:5px;"> 
<span class="blackText">Above £ 7.00 = </span> 
</td> 
<td> 
<span class="blackText"> 
<p>Free</p> 
</span> 
</td> 

我想提取的 「7.00」 和 「自由」,但下面不工作:

量= re.findall(R」以上£(。*?)=',html)

Python爲£符號拋出一個非ASCII錯誤。我將如何解決這個問題?謝謝。

+0

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – lolopop

回答

5
amount = re.findall(r'Above \xC2 (.*?) =', html) 
+0

你怎麼'\ xC2'?我的Python似乎使用'\ xa3'作爲英鎊符號。 – chrisaycock

+1

@chrisaycock - 取決於編碼。 '\ xa3'是html實體。 '\ xC2'是utf-8。請參閱(http://www.fileformat.info/info/unicode/char/a3/index.htm) –

+0

@JayWalker Ahhh – chrisaycock

相關問題