我有一篇文章的html文檔。我有一些標籤,可以用於文本格式。但我的文本編輯器使用了大量不必要的標籤進行格式化。我想用Python編寫一個程序來過濾這些標籤。 這樣一個程序的主要邏輯(結構,策略)是什麼?我是Python的初學者,希望通過解決實際的實際任務來學習這門語言。但我需要一些總體概述才能開始。如何用Python過濾html標籤
0
A
回答
0
使用BeautifulSoup
:
from BeautifulSoup import BeautifulSoup
html_string = #the HTML code
parsed_html = BeautifulSoup(html)
print parsed_html.body.find('div', attrs = {attrs inside html code}).text
這裏,div
只是標籤,你可以使用你要篩選其文本的任何標記。
0
不那麼您的要求清楚,但你應該在Python中使用現成的解析器像BeautifulSoup。
你可以找到一個tutorial here
0
只是不知道什麼會錯過,但你可以使用正則表達式。
re.sub('<[^<]+?>', '', text)
上述功能將搜索...
否則,你可以使用的HTMLParser
from HTMLParser import HTMLParser
class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def handle_entityref(self, name):
self.fed.append('&%s;' % name)
def get_data(self):
return ''.join(self.fed)
def html_to_text(html):
s = MLStripper()
s.feed(html)
return s.get_data()
相關問題
- 1. 如何讓Redcarpet optionaly過濾HTML標籤?
- 2. 過濾HTML標籤的sed
- 3. 使用php過濾一個html標籤
- 4. 使用HTML標籤過濾單元格
- 5. 如何使用django-tagging過濾標籤?
- 6. 如何使用python beautifulsoup4過濾iframe標籤?
- 7. 標籤內部HTML的jQuery過濾器
- 8. 如何從django模板(過濾器)永久刪除html標籤?
- 9. Joomla |如何過濾包含html標籤的輸入字符串
- 10. 與過濾標籤
- 11. Chart.js標籤過濾
- 12. 如何過濾標籤消息eclipse?
- 13. 如何過濾模板標籤?
- 14. SigmaJS如何過濾動態標籤?
- 15. 如何通過Android應用程序過濾藍牙標籤
- 16. 如何通過python將markdown標籤替換爲html?
- 17. 如何通過getJSON傳遞HTML標籤?
- 18. 如何編輯HTML(標籤),通過CppWebBrowser
- 19. 過濾NG綁定,HTML,如果打開新的標籤頁
- 20. 應用-webkit-過濾器:模糊到全屏背景HTML標籤
- 21. 角預輸入過濾器:使用HTML標籤
- 22. TwitPic過濾器按標籤
- 23. 標籤雲過濾器
- 24. GmailApp.search不會過濾標籤
- 25. Javascript過濾器通過html標籤(h2和範圍)
- 26. 如何過濾html表?
- 27. 如何過濾html字符?
- 28. 使用elasticsearch過濾標籤與空白
- 29. 使用標籤過濾cse結果
- 30. 過濾的SoundCloud的標籤用PHP
你找到你要找的東西? – Jarvis