快速的問題,因爲我卡住了,似乎沒有得到任何進一步的。Python:從列表中刪除/過濾等號
這裏是我的問題:
我在數據集中工作在那裏我從一個XML轉儲提取Wikipedia頁面的每一個部分的名稱。我提取文本和文本,每部分給出通過:
==章節名稱==
然而,也有我不打算處理和通過
給出小節===章節名稱===
目前我使用正則表達式過濾從文本的部分(pagetext)
sections = re.findall("==(.*)==", pagetext)
結果卻是爲t小節的小節也包含在我的部分列表中。問題:如何從我的部分列表中篩選這些子部分,以僅檢索文本中的部分。
我已經使用這個列表理解,但不工作
sections = [section for section in sections if section[0] == (r"^=")]
任何幫助是極大的讚賞:)很多感謝!
要清楚,您是直接使用正則表達式處理XML,還是先將XML轉換爲其他內容? – kojiro
不,首先我處理XML以達到標記,並試圖找到該文本標記內的部分 –
Oliver