使用Python處理HTML文件

我想刪除HTML文件中的所有標記。爲此，我使用Python的重新模塊。例如，考慮行<h1>Hello World!</h1>。我只想保留「Hello World！」。爲了移除標籤，我使用了re.sub('<.*>','',string)。由於顯而易見的原因，我得到的結果是一個空字符串（正則表達式標識第一個和最後一個尖括號並刪除其間的所有內容）。我怎麼能解決這個問題？使用Python處理HTML文件

來源

2011-10-08 PaulDaviesC

您可以匹配非貪婪：'<.*?>'

您還需要小心，HTML是一個狡猾的野獸，並能阻止你的正則表達式。

來源

2011-10-08 03:38:55

使用BeautifulSoup解析HTML，然後僅檢索文本。

來源

2011-10-08 03:36:08

BeatifulSoup在Python中的模塊？或者它是什麼？ – PaulDaviesC

http://www.crummy.com/software/BeautifulSoup/ – akonsu

使它非貪婪：http://docs.python.org/release/2.6/howto/regex.html#greedy-versus-non-greedy

題外話：使用正則表達式的方法很容易出錯。當尖括號不代表標籤時，它無法處理案例。我建議http://lxml.de/

來源

2011-10-08 03:39:55 akonsu

使用的解析器，無論是lxml或BeautifulSoup：

import lxml.html 
print lxml.html.fromstring(mystring).text_content()

Why it's not possible to use regex to parse HTML/XML: a formal explanation in layman's terms

來源

2011-10-08 03:55:02

Beautiful Soup是偉大的解析HTML！

你可能不需要它，但值得學習使用它。也會在未來幫助你。

來源

2011-10-08 06:22:30 varunl

使用Python處理HTML文件

回答

相關問題