2
A
回答
8
內置的HTMLParser模塊: http://docs.python.org/py3k/library/html.parser.html
不是本地人,但值得一提的; BeautifulSoup: http://www.crummy.com/software/BeautifulSoup/
3
不知道你的母語是什麼意思,但我的lxml忠實粉絲。
+0
+1我發現lxml比BeautifulSoup更好 – ilprincipe 2011-05-08 20:19:34
+0
+1第二次ilprincipe,lxml更好:更靈活,更快。尤其是與Twisted一起使用時。 – ARF 2011-06-27 17:01:09
相關問題
- 1. 最佳Python模塊的HTML解析
- 2. 陣營本地無法解析模塊
- 3. 陣營本地不能解析模塊
- 4. python本地模塊
- 5. 使用Python 3.2解析XHTML
- 6. 解析本地HTML文件
- 7. 有解析柱狀文本的Perl模塊嗎?
- 8. D有HTML解析嗎?
- 9. 在反應本機中有條件地解析模塊
- 10. 本地HTML文件的HTML解析器
- 11. Python循環本地模塊
- 12. Python html解析
- 13. python html解析
- 14. libxml2 HTML塊解析
- 15. 在Python中強健地解析HTML
- 16. 在Python Cmd模塊中解析參數
- 17. Python的cmd模塊 - 解析線的值
- 18. Python解析器模塊教程
- 19. Python:解析wordpress HTML
- 20. Python的HTML解析
- 21. 解析HTML與Python
- 22. html解析器python
- 23. 使用Python解析文本塊
- 24. 模塊'avro.schema'沒有屬性'解析'
- 25. 沒有模塊命名爲模擬python 3.2
- 26. 適用於Python 3.2的媒體模塊
- 27. Python 3.2使用子進程模塊
- 28. HTML解析文本在Python 3
- 29. 解析Python文本並保存爲html
- 30. 從Python解析HTML中提取文本
+1爲美麗的湯,因爲現實世界的HTML是friggin的混亂。 BS只是隨着你拋出的任何垃圾滾動,並微笑起來。 – 2011-05-03 19:46:09
@Peter:不幸的是,BeautifulSoup在Python 3中效果不好,因爲它依賴於sgmllib。我弄亂了它使用新的html5lib,但它不完整。 https://code.launchpad.net/~takowl/beautifulsoup/3k http://code.google.com/r/takowl-html5lib/(如果您有興趣,請隨時加以處理)。 – 2011-05-03 20:00:58
完美。我想我會使用HTMLParser,因爲它與'sgmllib'非常相似。我也讀了很多關於'BeautifulSoup'的文章,大家都在抱怨Python 3的兼容性問題。謝謝。 – David 2011-05-03 20:03:35