說我有一個字符串看起來像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>
使用Python重新擺脫鏈接
如何使用re
擺脫鏈接並只獲得Boston–Cambridge–Quincy, MA–NH MSA
一部分?
我試過類似match = re.search(r'<.+>(\w+)<.+>', name_tmp)
但不工作。
說我有一個字符串看起來像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>
使用Python重新擺脫鏈接
如何使用re
擺脫鏈接並只獲得Boston–Cambridge–Quincy, MA–NH MSA
一部分?
我試過類似match = re.search(r'<.+>(\w+)<.+>', name_tmp)
但不工作。
re.sub('<a[^>]+>(.*?)</a>', '\\1', text)
請注意,解析HTML通常是rather dangerous。但是,您似乎在解析MediaWiki生成的鏈接,並認爲鏈接總是相似的格式,因此您應該對該正則表達式應該沒問題。
您還可以使用bleach
模塊https://pypi.python.org/pypi/bleach,它包裝HTML消毒工具,讓你快速去除HTML