我有一個文件,我需要解析。解析是逐步構建的,因此在每次迭代中,表達式都變得更具特定性。re.compile(模式,文件)調用導致系統崩潰
其超載系統中的代碼段看起來大致是這樣的:
for item in ret:
pat = r'a\sstyle=".+class="VEAPI_Pushpin"\sid="msftve(.+?)".+>%s<'%item[1]
r=re.compile(pat, re.DOTALL)
match = r.findall(f)
該文件是一個相當大的HTML文件(從Bing地圖解析),以及每個答案必須其確切的ID相符。
在應用此更改之前,工作流程非常好。有什麼我可以做,以避免這種情況?或者優化代碼?
哈!這就是使用正則表達式解析HTML所得到的結果。 http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – 2011-05-18 21:20:44
首先,不要使用正則表達式來解析HTML!其次,什麼樣的崩潰? Segfault或Python異常?任何有用的信息? – Santa 2011-05-18 21:25:41
Python環境只是停止響應,儘管鍵盤中斷「喚醒它」@santa – 242Eld 2011-05-19 08:16:09