我在文件夾中有很多html格式文件。我需要檢查它們是否包含這個標籤:Python正則表達式提取標籤內的html文件內容
<strong>QQ</strong>
而且只需要提取「QQ」及其內容。 我首先閱讀其中一個要測試的文件,但看起來我的正則表達式不匹配。 如果我取代fo_read作爲標籤
<strong>QQ</strong>
它將雖然相匹配。
fo = open('4251-fu.html', "r")
fo_read = fo.read()
m = re.search('<strong>(QQ)</strong>', fo_read)
if m:
print 'Match found: ', m.group(1)
else:
print 'No match'
fo.close()
你有使用HTML解析器,而不是考慮? [使用正則表達式來解析HTML是可怕的](https://stackoverflow.com/a/1732454/5067311)。 –
我有beautifulsoup,但在html中有幾個強大的標籤。它如何工作? –
如果您有多個標籤,而不是使用HTML解析器的另一個原因。我不熟悉這個主題,但是BS4文檔或[標準html模塊](https://docs.python.org/3/library/html.parser.html)(oops:[python2 for you] (https://docs.python.org/2/library/htmlparser.html))文檔和一些有針對性的谷歌搜索應該是有幫助的。 –