0
我有一個名爲BBC_news_home.html的文件,我需要刪除所有標記標記,所以我留下的只是一些文本。到目前爲止,我有:Python - 刪除標記標籤並從文件中讀取html?
def clean_html(html):
cleaned = ''
line = html
pattern = r'(<.*?>)'
result = re.findall(pattern, line, re.S)
if result:
f = codecs.open("BBC_news_home.html", 'r', 'utf-8')
print(f.read())
else:
print('Not cleaned.')
return cleaned
我與regex101.com檢查的模式是正確的我只是不知道如何打印輸出,以檢查是否標記標籤都沒有了?
您可能想查看[BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/),更具體地說[.get_text()](https://www.crummy。 COM /軟件/ BeautifulSoup/BS4/DOC /#獲取文本)。 –