2011-06-23 216 views
-3

Possible Duplicate:
using python, Remove HTML tags/formatting from a stringPython:如何從文本字符串中刪除HTML標頭?

我在一個HTML文件中讀取:

fi = open("Tree.html", "r") 
text = fi.read() 

我想從文本中刪除HTML頭:

text = re.sub("<head>.*?</head>", "", text) 

爲什麼這個不行?

+0

你可以從你的HTML文件發佈標題部分。 –

+0

必須閱讀此答案:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 –

回答

1

它看起來像你不捕捉換行符。您需要添加DOTALL標誌。

text = re.sub("<head>.*?</head>", "", text, flags=re.DOTALL) 
+0

錯誤消息:TypeError:sub()got a意外的關鍵字參數「標誌」 – Neopugg

+1

你使用的是什麼版本的Python? flags關鍵字是v2.7 +。 –

+0

我正在使用Python v2.6。沒有「flags =」就可以。謝謝! – Neopugg

相關問題