我已經在python中編寫腳本來從一些html元素中刪除一些文本。腳本現在可以解析它。但是,問題是結果看起來很奇怪,它們之間有一堆空格。我該如何解決它?任何幫助將不勝感激。無法刪除抓取的文本之間的空間
這是HTML元素的文本應該被刮掉:
html="""
<div class="postal-address">
<p>11525 23 AVE</p>
<p>EDMONTON,
AB
,
T6J 4T3
</p>
<p><a rel="nofollow" href="mailto:[email protected]">[email protected]</a></p>
<p><a rel="nofollow" href="http://www.something.org" target="_blank">Visit our Web Site</a></p>
</div>
"""
這是我與嘗試腳本:我有
from lxml.html import fromstring
root = fromstring(html)
address = [item.text for item in root.cssselect(".postal-address p")]
print(address)
結果:
11525 23 AVE, EDMONTON,\n AB\n ,\n T6J 4T3\n
預期結果:
11525 23 AVE EDMONTON, AB, T6J 4T3
我試着在這一行中應用.strip()
和.replace("\n","")
[item.text for item in root.cssselect(".postal-address p")]
,但它拋出一個錯誤,顯示none type object
。
順便說一句,我不希望有任何解決方案與regex
有關。提前致謝。
非常感謝先生安德森,爲這樣一個有效的答案。你總是特定於所需的輸出。再次感謝。 – SIM