我想通過使用python閱讀html文檔並將所有表格行收集到單個列表中。 (我知道的用於此目的的專用工具,但我必須使用正則表達式。) 這是我到目前爲止的代碼:在Python中使用正則表達式的html標籤
import urllib
import re
URL = 'http://www.xpn.org/events/concert-calendar'
sock = urllib.urlopen(URL)
doc = sock.read()
sock.close()
patString = r'''
< tr(. * ?)>
(.*?)
< /tr>
'''
pattern = re.compile(patString, re.VERBOSE)
concerts = re.findall(pattern, doc)
print (concerts)
但是,打印只打印一個空列表。我嘗試了一些不同的模式,但都產生了相同的結果。我很確定這個問題是模式,但我不完全確定(因爲我正試圖在寫這篇文章的時候使用python)。我試圖找到的表格行格式爲<tr class="odd/even"> other data </tr>
,我想捕獲所有這些數據並將其放置到列表中供稍後在腳本中使用。
任何幫助表示讚賞。 謝謝
'我必須使用regex.'真的嗎?我也很好奇,爲什麼? – njzk2
'。 *「從字面上解析任何角色,然後是無限的空間,然後可能還有一個空間。這就是你打算輸入的內容嗎? –
數據換行符?嘗試'pattern = re.compile(patString,re.VERBOSE | re.DOTALL)'。 –