所以我認爲在以下格式的數據:匹配,但不包括一個或另一個與蟒蛇正則表達式
<Category: XXX -
或
<Category: XXX</b>
我woud想留住「 xxx',但已經能夠保留('XXX','')或('')或其他不需要的變體。
我不想用美麗的湯,我無法用我的蟒蛇包管理器
ADDED下載它 - 我嘗試
'Category: ([^<]+)</b'
將產生[ 'xxx']
<Category: XXX</b>
'Category: ([^<]+) &n'
會產生[ 'XXX']當
<Category: XXX
,我想我不喜歡的東西
'Category: ([^<]+)(</b| &n)'
即產生
[('XXX', '</b')]
或
[('XXX', ' &nb')]
你可以包括更多的代碼,你一直在嘗試到目前爲止,並在你的問題中的一些示例輸入數據? – Jerry
ummm're。findall(「Category:\ s(\ W +)」,my_text)'類似的東西? –
確定添加一些主要職位 – amchugh89