2
A
回答
2
你可以嘗試http://utidylib.berlios.de/,一個Python包裝的整潔庫。在大多數情況下,整潔效果很好。
對於一些更強大的(或至少具有更多瀏覽器等),我想你可以嘗試的WebKit或壁虎。我不確定負責清理HTML的包裝是否可用,但您可以看看。
4
你可以使用lxml的圖書館,特別是lxml.html它給你一個ETree對象,然後你可以序列化爲XML(其中包括)中。 tostring() method。
如果失敗了你的HTML(它太破),可以使用ElementSoup(上BeautifulSoup的擴展)來建立一個lxml.html樹。
相關問題
- 1. 如何從網絡解析XML?
- 2. Jquery解析包含html的原始轉儲XMl節點 - YQL
- 3. Python原始字符串和html解析
- 4. 從網站解析Python XML
- 5. 如何在Go中轉換原始HTML?
- 6. Python解析網絡
- 7. Xml從網絡響應中解析
- 8. 使用xslt將原子xml轉換爲html - 如何顯示原始HTML
- 9. 從網絡解析
- 10. 在Python中解析原始的HTTP
- 11. 將原始html轉儲到Telerik電網
- 12. Python 3從網絡解析PDF
- 13. 如何解析原始cookie
- 14. jquery原始html轉換
- 15. 解析HTML到XML
- 16. 解析XML到HTML
- 17. HTML到XML(解析)
- 18. 比較效率:XSLT與XML-解析從XML到XML轉換
- 19. 如何在Python中解析此網頁(並轉換爲字典)
- 20. Python直接從網址解析xml
- 21. 解析來自網絡的XML響應
- 22. CoreNLP原始依賴與神經網絡依賴解析
- 23. 如何在Python中發送原始XML?
- 24. Python的泡沫原始XML解析VS值differnce
- 25. 將原始XML解析爲JSON
- 26. 轉換HTML實體,以原始HTML
- 27. 解析python中的原始.pcap流程
- 28. iOS JSON解析從網絡到UITableView
- 29. 如何解析HTML或將HTML轉換成XML,所以我解壓出來的網站的信息(C#)
- 30. 解析XML轉換成listpicker
您的HTML是否乾淨? – Scharron 2010-09-13 13:48:45
它來自*網站。* – 2010-09-13 13:49:39
你試過http://utidylib.berlios.de/嗎?我不知道它,但Tidy能夠將醜陋的HTML轉換成性感的XML。也許它的python包裝也可以做到這一點? – Scharron 2010-09-13 15:10:40