2011-09-03 58 views
0

我有一個包含多個文本章節的HTML文檔,其中H1標籤是章節分隔符。我怎樣才能將這樣的文檔分割成html片段,其中每個片段以對應的「章節」的h1標籤開頭。我雖然對HTML進行了美化,然後逐行迭代內容......但這是一種破解。有沒有更好的解決方案使用lxml?使用lxml.html拆分HTML文檔

回答

7
tree = lxml.html.document_fromstring(htmltext) 
for element in tree.iter(): 
    if element.tag == 'h1': 
    for subelement in element: 
     // do stuff 

這將找到是h1標籤的元素,然後您可以遍歷其所有子元素。你也可以將元素內的所有文本作爲一個字符串,並以這種方式做它的東西。無論你想做什麼。 http://lxml.de/ lxml很棒,我會推薦它。我不得不更新代碼已經使用它,只是保持網站開放,以供參考,每當我有一個問題:)

+0

胡說八道... h1標籤通常沒有子元素 –

+0

Upvotes for this nonsense answer? –

+3

Upvoting因爲這不是無稽之談。 – jterrace