0
我正在使用lxml libray的Python版本。我目前正試圖解析表格中的文字,但遇到問題,因爲有些文字是鏈接。使用lxml.etree讀取元素中的文本
例如,小區中的一個可能看起來像這樣:解析HTML後
<td>
Can I kick it, <a>to all the people</a> who can quest like a <a>tribe</a> does
</td>
說,TD元素被存儲爲foo
。那麼foo.text
將不會顯示整個文本,只會顯示不是鏈接的部分。此外,如果我找到使用[i.text for i in foo.getchildren()]
的鏈接文本,我不再知道放置非鏈接文本和鏈接文本的順序。
有沒有簡單的方法來解決這個問題?