如何原始的HTML轉換從網絡到可解析XML在Python

我想BeautifulSoup能做到這一點，但它似乎並沒有這樣的伎倆。如何原始的HTML轉換從網絡到可解析XML在Python

什麼方法你已經使用，並且是長期可靠？

您的HTML是否乾淨？ – Scharron 2010-09-13 13:48:45

它來自*網站。* – 2010-09-13 13:49:39

你試過http://utidylib.berlios.de/嗎？我不知道它，但Tidy能夠將醜陋的HTML轉換成性感的XML。也許它的python包裝也可以做到這一點？ – Scharron 2010-09-13 15:10:40

你可以嘗試http://utidylib.berlios.de/，一個Python包裝的整潔庫。在大多數情況下，整潔效果很好。

對於一些更強大的（或至少具有更多瀏覽器等），我想你可以嘗試的WebKit或壁虎。我不確定負責清理HTML的包裝是否可用，但您可以看看。

2010-09-13 16:10:40 Scharron

你可以使用lxml的圖書館，特別是lxml.html它給你一個ETree對象，然後你可以序列化爲XML（其中包括）中。 tostring() method。

如果失敗了你的HTML（它太破），可以使用ElementSoup（上BeautifulSoup的擴展）來建立一個lxml.html樹。

2010-09-13 15:37:51 ikanobori

回答