2017-08-11 118 views
-1

我解析一個網頁,並通過使用lxml.html HTMLEElement text_content()函數獲取文本內容。問題在於HTML本身沒有任何空格,並且所有新行都由<p>標籤指示。我想要做的就是向所有<p>元素添加換行符,以便在輸出文本時,我不會將行連接在一起,也不會有空格。python lxml.html給元素添加空間

我得到的元素,我需要這樣:

divs = body.cssselect('div') 

凡HTML看起來像這樣:

<html><...><body><div><p>Text on one line.</p><p>Text on another line.</p></body></html> 

我想補充\n每個<p>元素的div我得到。

感謝

+1

帖子你寫的代碼LXML和你試圖刮掉一些樣本HTML –

回答

0

原來是簡單:

p_elements = body.findall(".//p") 
for element in p_elements: 
    text = element.text 
    element.text = "\n" + text