2013-09-23 19 views
0

我正在使用lxml libray的Python版本。我目前正試圖解析表格中的文字,但遇到問題,因爲有些文字是鏈接。使用lxml.etree讀取元素中的文本

例如,小區中的一個可能看起來像這樣:解析HTML後

<td> 
    Can I kick it, <a>to all the people</a> who can quest like a <a>tribe</a> does 
</td> 

說,TD元素被存儲爲foo。那麼foo.text將不會顯示整個文本,只會顯示不是鏈接的部分。此外,如果我找到使用[i.text for i in foo.getchildren()]的鏈接文本,我不再知道放置非鏈接文本和鏈接文本的順序。

有沒有簡單的方法來解決這個問題?

回答

1

那麼在搜索了一個小時之後,在發佈這個問題的2分鐘之內,我找到了解決方案。

使用方法foo.text_content(),這將顯示需要什麼。