2010-09-01 37 views
2

我想BeautifulSoup能做到這一點,但它似乎並沒有這樣的伎倆。如何原始的HTML轉換從網絡到可解析XML在Python

什麼方法你已經使用,並且是長期可靠

+0

您的HTML是否乾淨? – Scharron 2010-09-13 13:48:45

+3

它來自*網站。* – 2010-09-13 13:49:39

+1

你試過http://utidylib.berlios.de/嗎?我不知道它,但Tidy能夠將醜陋的HTML轉換成性感的XML。也許它的python包裝也可以做到這一點? – Scharron 2010-09-13 15:10:40

回答

2

你可以嘗試http://utidylib.berlios.de/,一個Python包裝的整潔庫。在大多數情況下,整潔效果很好。

對於一些更強大的(或至少具有更多瀏覽器等),我想你可以嘗試的WebKit或壁虎。我不確定負責清理HTML的包裝是否可用,但您可以看看。

4

你可以使用lxml的圖書館,特別是lxml.html它給你一個ETree對象,然後你可以序列化爲XML(其中包括)中。 tostring() method

如果失敗了你的HTML(它太破),可以使用ElementSoup(上BeautifulSoup的擴展)來建立一個lxml.html樹。