2011-09-04 73 views

回答

1

不要對Unicode的使用Python的re庫。它工作非常糟糕。改爲使用Matthew Barnett’s regex library。它工作得很好,好多了。

它也可以運行在Python 2和Python 3上,也可以運行在狹窄和廣泛的版本上,但由於與該特定庫基本無關的原因,我強烈建議您僅運行Python 3的廣泛版本並且避開所有其他組合。

1

Python的正則表達式不支持Unicode屬性。您可以嘗試:

text = re.sub("[^a-zA-Z0-9 ]+","",text) 

取而代之。如果你喜歡安裝Ponyguruma有一些東西,你可以用:

text = re.sub("[\P{Alnum}\PZ]+","",text) # pZ is shorthand for p{Separator} 
+0

是的,但看到我的答案。 – tchrist

相關問題