我一些文本與HTML文物,其中<
和標籤>
得到了下降,所以現在我需要的東西,將匹配一小p
跟着一個大寫字母,像爲HTML文物正則表達式
pThe next day they....
而且我也需要一些能夠趕上尾隨/p
的東西,這很容易。這些需要被剝離,即用python中的""
代替。
我會用什麼RE?謝謝! Stephan。
我一些文本與HTML文物,其中<
和標籤>
得到了下降,所以現在我需要的東西,將匹配一小p
跟着一個大寫字母,像爲HTML文物正則表達式
pThe next day they....
而且我也需要一些能夠趕上尾隨/p
的東西,這很容易。這些需要被剝離,即用python中的""
代替。
我會用什麼RE?謝謝! Stephan。
試試這個:
re.sub(r"(/?p)(?=[A-Z]|$)", r"<\1>", str)
你可能想(這裏(?=[A-Z]|$)
)與像空白附加字符擴展邊界斷言。
我得到了。您可以使用反向引用,
import re
smallBig = re.compile(r'[a-z]([A-Z])')
...
cleanedString = smallBig.sub(r'\1', dirtyString)
這消除了小寫字母,但保持大寫字母在了「<」和「>」 html標籤的被剝奪的情況下,你坐下來與文字一樣
pSome款新品文字/ p
快速和骯髒,但它適用於我的情況。