我知道NLTK有它。但還有其他嗎?什麼是可以消除HTML標籤的輕型python庫? (只有文字)
-1
A
回答
4
python標準模塊html.parser應該允許你解析簡單的html內容並消除標籤。您只需派生HTMLParser,然後重載所有handle _ *()方法,以便輸出或放棄內容,具體取決於周圍的元素標記。
4
BeautifulSoup:http://www.crummy.com/software/BeautifulSoup/
從主頁:
美麗的湯是一個Python HTML/XML解析器設計用於快速週轉項目,如屏幕抓取。三個特點使其功能強大:
- 美麗的湯不會嗆,如果你給它壞標記。它產生一個解析樹,與您的原始文檔大致相同。這通常足夠收集你需要的數據並逃跑。
- 美麗的湯提供了一些簡單的方法和Pythonic成語,用於瀏覽,搜索和修改解析樹:一個解剖文檔和提取所需內容的工具包。您不必爲每個應用程序創建自定義分析器。
- 美麗的湯自動將傳入文檔轉換爲Unicode和傳出文檔爲UTF-8。您不必考慮編碼,除非文檔未指定編碼,而美麗湯不能自動檢測編碼。然後您只需指定原始編碼。
0
如果您的許可證允許,您可以使用html2text (the asciinator)(GPL)。
1
你可能想看看地帶-O-革蘭氏HTML轉換庫:
from stripogram import html2text, html2safehtml
mylumpofdodgyhtml # a lump of dodgy html ;-)
# Only allow <b>, <a>, <i>, <br>, and <p> tags
mylumpofcoolcleancollectedhtml = html2safehtml(mylumpofdodgyhtml,valid_tags=("b", "a", "i", "br", "p"))
# Don't process <img> tags, just strip them out. Use an indent of 4 spaces
# and a page that's 80 characters wide.
mylumpoftext = html2text(mylumpofcoolcleancollectedhtml,ignore_tags=("img",),indent_width=4,page_width=80)
相關問題
- 1. 消除HTML標籤
- 2. 刪除帶有文字的HTML標籤
- 3. 是否有隻運行.pyc文件的輕型版本的Python?
- 4. 有沒有什麼辦法,HTML音頻標籤可以在Firefox
- 5. 什麼是JSTL?什麼是JSP標籤庫?有什麼區別?
- 6. 什麼是html中的indenting標籤?
- 7. Jsoup只刪除html標籤
- 8. 是否有可能只刪除軌道中的有效標籤?
- 9. 什麼是可能的HTML <head>標籤?
- 10. 有無標籤的HTML可以嗎?
- 11. 什麼是用Java編碼HTML實體的輕量級庫?
- 12. 什麼是html標籤用於?
- 13. 什麼是智能標籤,如何從html中刪除它們?
- 14. 有沒有什麼好的理由可以通過HTML標籤來支持swfobject.js?
- 15. 當標籤上有百里香時,標籤中的文字是什麼?
- 16. 是否可以在ASP標籤之間添加HTML標籤?
- 17. 觸摸打字程序。什麼是標籤類型的數字?
- 18. 爲什麼html標籤可以被樣式化和看到?
- 19. 輕量級標籤可以轉換爲註釋標籤嗎?
- 20. 什麼是PHP的結束標籤只PHP文件的參數?
- 21. 什麼是「類標籤」re:數據庫
- 22. 標題標籤中的可接受標籤是什麼?
- 23. 從Python DataFrame中刪除HTML標籤
- 24. asp:label和HTML標籤有什麼區別?
- 25. 剝離Python字符串中某些html標籤的最快方法是什麼?
- 26. 如何刪除標籤的使用Javascript文字,只有文字沒有吊牌
- 27. HTML中的object標籤和include標籤有什麼區別?
- 28. 使用python刪除html標籤?
- 29. 爲什麼mysql只是文本類型是可用的?
- 30. ST M24LR64-R標籤的標籤類型是什麼
多那麼討論碰這個解析器,HTTP://計算器從readme.txt文件http://pypi.python.org/pypi/stripogram/1.5
用法示例.COM /問題/標記/ beautifulsoup – gimel 2009-10-25 10:37:40