Q

使用Python重新擺脫鏈接

python
regex

2013-02-23 105 views 0 likes

0

說我有一個字符串看起來像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>使用Python重新擺脫鏈接

如何使用re擺脫鏈接並只獲得Boston–Cambridge–Quincy, MA–NH MSA一部分？

我試過類似match = re.search(r'<.+>(\w+)<.+>', name_tmp)但不工作。

2013-02-23 clwen

A

回答

3

re.sub('<a[^>]+>(.*?)</a>', '\\1', text)

請注意，解析HTML通常是rather dangerous。但是，您似乎在解析MediaWiki生成的鏈接，並認爲鏈接總是相似的格式，因此您應該對該正則表達式應該沒問題。

2013-02-23 23:43:38 poke

3

您還可以使用bleach模塊https://pypi.python.org/pypi/bleach，它包裝HTML消毒工具，讓你快速去除HTML

的文本

2013-02-24 00:21:20

相關問題

1. PHP擺脫鏈接
2. 擺脫下劃線（鏈接）
3. 如何擺脫使用python
4. 如何擺脫使用python
5. 正則表達式的PHP：「擺脫[鏈接1]擺脫[鏈接2] ...擺脫」 - 問題'擺脫'當有沒有[鏈接]
6. 如何擺脫mfc鏈接錯誤？
7. 擺脫鏈接中的正斜槓
8. 無法擺脫鏈接下劃線
9. 在XCode中擺脫鏈接器警告
10. 擺脫博客圖片鏈接

11. 如何擺脫XCode Architecture鏈接錯誤？
12. 擺脫wchar_t大小鏈接器警告
13. 的Python：擺脫使用字符串XML
14. 如何擺脫WordPress的重複永久鏈接
15. 擺脫閱讀更多新聞鏈接預告
16. Python/matplotlib：擺脫matplotlib.mpl警告
17. 不能擺脫Python循環
18. 如何擺脫[「」]在Python
19. 無法擺脫重複
20. 無法擺脫重複行
21. SAS擺脫「重複」變量
22. 擺脫301重定向
23. 擺脫重複陣列
24. 使用glutIdleFunc擺脫glutMainLoop？
25. 使用preg_match_all擺脫HTML
26. 使用mod_rewrite擺脫問號
27. 使用jsoup擺脫表
28. iFrame擺脫白色接壤
29. 擺脫地鐵接口
30. 如何使用鏈接的圖像時，擺脫連接的邊界？