2011-10-08 63 views
0

我想刪除HTML文件中的所有標記。爲此,我使用Python的重新模塊。 例如,考慮行<h1>Hello World!</h1>。我只想保留「Hello World!」。爲了移除標籤,我使用了re.sub('<.*>','',string)。由於顯而易見的原因,我得到的結果是一個空字符串(正則表達式標識第一個和最後一個尖括號並刪除其間的所有內容)。我怎麼能解決這個問題?使用Python處理HTML文件

回答

1

您可以匹配非貪婪:'<.*?>'

您還需要小心,HTML是一個狡猾的野獸,並能阻止你的正則表達式。

1

使用BeautifulSoup解析HTML,然後僅檢索文本。

+0

BeatifulSoup在Python中的模塊?或者它是什麼? – PaulDaviesC

+0

http://www.crummy.com/software/BeautifulSoup/ – akonsu

0

Beautiful Soup是偉大的解析HTML!

你可能不需要它,但值得學習使用它。也會在未來幫助你。