爲HTML文物正則表達式

我一些文本與HTML文物，其中<和標籤>得到了下降，所以現在我需要的東西，將匹配一小p跟着一個大寫字母，像爲HTML文物正則表達式

pThe next day they....

而且我也需要一些能夠趕上尾隨/p的東西，這很容易。這些需要被剝離，即用python中的""代替。

我會用什麼RE？謝謝！ Stephan。

試試這個：

re.sub(r"(/?p)(?=[A-Z]|$)", r"<\1>", str)

你可能想（這裏(?=[A-Z]|$)）與像空白附加字符擴展邊界斷言。

2009-10-13 10:35:09 Gumbo

我得到了。您可以使用反向引用，

import re 
smallBig = re.compile(r'[a-z]([A-Z])') 

... 
cleanedString = smallBig.sub(r'\1', dirtyString)

這消除了小寫字母，但保持大寫字母在了「<」和「>」 html標籤的被剝奪的情況下，你坐下來與文字一樣

pSome款新品文字/ p

快速和骯髒，但它適用於我的情況。

2009-10-13 10:38:16 gouwsmeister

回答