我創建解析器,我有以下結構:保存<br/>在beautifulsoup
quotes = soup.findAll('div',{'class':'text'})
但它是去除所有html標籤(如BR)。我如何改變它?
我創建解析器,我有以下結構:保存<br/>在beautifulsoup
quotes = soup.findAll('div',{'class':'text'})
但它是去除所有html標籤(如BR)。我如何改變它?
findAll
本身會給你的HTML節點的列表。
如果您想要檢索其文本內容(無標籤),請使用.get_text()
。
要獲得這些節點的孩子(也作爲對象),請使用.contents
or .children
。
爲了將節點的孩子打印爲格式良好的字符串,可以使用.prettify()
。請注意,這不會完全保留原始格式。
如果你要拿出從文本標籤,你可以嘗試這樣的事:
for item in quotes:
quote = re.sub(r"\<.*?\>", "", quote)
不,恰恰相反,我要保存所有標籤 可能是我的英語很糟糕,我很抱歉它:) –
沒問題,所以你要將標籤轉換爲「\ n」或? – Kaonashi