0
我有一個包含多個文本章節的HTML文檔,其中H1標籤是章節分隔符。我怎樣才能將這樣的文檔分割成html片段,其中每個片段以對應的「章節」的h1標籤開頭。我雖然對HTML進行了美化,然後逐行迭代內容......但這是一種破解。有沒有更好的解決方案使用lxml?使用lxml.html拆分HTML文檔
我有一個包含多個文本章節的HTML文檔,其中H1標籤是章節分隔符。我怎樣才能將這樣的文檔分割成html片段,其中每個片段以對應的「章節」的h1標籤開頭。我雖然對HTML進行了美化,然後逐行迭代內容......但這是一種破解。有沒有更好的解決方案使用lxml?使用lxml.html拆分HTML文檔
tree = lxml.html.document_fromstring(htmltext)
for element in tree.iter():
if element.tag == 'h1':
for subelement in element:
// do stuff
這將找到是h1標籤的元素,然後您可以遍歷其所有子元素。你也可以將元素內的所有文本作爲一個字符串,並以這種方式做它的東西。無論你想做什麼。 http://lxml.de/ lxml很棒,我會推薦它。我不得不更新代碼已經使用它,只是保持網站開放,以供參考,每當我有一個問題:)
胡說八道... h1標籤通常沒有子元素 –
Upvotes for this nonsense answer? –
Upvoting因爲這不是無稽之談。 – jterrace