使用lxml獲取div的HTML內容

我使用python和lxml從鏈接負載中獲取div.article的內容。我想要div的實際html標記。但到目前爲止，我只能獲得剝去標記的鏈接的text_content（）。使用lxml獲取div的HTML內容

doc = html.fromstring(doc_text) 

article = doc.cssselect("div.article") 

if len(article) > 0: 
    text = article[0].text_content() 

    data = { 
     'product':product, 
     'content': text, 
    }

任何人都可以幫我獲得文章[0]的標記嗎？

感謝

來源

2013-03-11 iamjonesy

您可以只使用節點的迭代功能，並建立您的字符串的方式。

def innerHTML(node): 
    buildString = '' 
    for child in node: 
     buildString += html.tostring(child) 
    return buildString

來源

2013-03-11 16:46:51

很好，謝謝！ – iamjonesy 2013-03-12 09:12:14

使用lxml獲取div的HTML內容

回答

相關問題