我一直在努力,以配合標籤名稱僅(不<
和>
標誌)是正規標籤的情況:Python的XML正則表達式匹配問題
<w:tag w:attrib1="http://url" w:attrib2="anyValue">
不匹配獨奏標籤(opening-關閉標籤):
<w:tag2 w:attrib1="anyValue" w:attrib2="http://url" />
(請注意網址的屬性,因爲它們含有斜槓(/
))
,但不能設法得到它:
regex = re.compile('(?<=<)w:\w+(?=[\w\W]+>)(?!\s/>)')
print(regex.findall(string))
得到這個:
['w:tag','w:tag2']
期待這樣的:
['w:tag']
有什麼想法?
乾杯。
我很熟悉XML和lxml,並且很喜歡它。雖然這次我需要處理一些破碎的東西......感謝您的詳細解答。它像魅力一樣工作,而且看起來比我想象的更好。 – devdc