我有文字的下面的字符串(從維基百科轉儲)期廣義正則表達式來搜索維基百科分類
text = "[[Category:Ethnic groups| ]]\n[[Category:Ethnic groups by region|*]]\n[[Category:Society-related lists|Ethnic groups]]\n[[Category:Lists of ethnic groups]]"
,我想提取文本中的所有類別。所以基本上理想的輸出應
text = "[Ethnic groups,Ethnic groups by region,Society-related lists|Ethnic groups,Lists of ethnic groups]"
這是我得到的解決方案
import re
categories = re.findall(r'\b(Category:.*)\b', text)
categories = [category.replace("Category:", "") for category in categories]
返回我想要的嘗試。但是,我不確定這是推廣正則表達式的最佳方式。特別是,我想搜索「[[Category:」而不是「Category:」,因爲這是維基百科對類別鏈接的定義。你對如何提高我的正則表達有什麼建議嗎?