可以說我有HTMLBeautifulSoup - 帶標籤的文本中提取文本
<div>Hey</div><div>This is <b>some text<b/>, right here. <a>Link<a/></div>
和代碼
soup = BeautifulSoup(html)
texts = soup.findAll(text=True)
print()函數將返回
['Hey', 'This is ', 'some text', ', right here.', 'Link']
的文本。
我怎麼能排除像「B」標籤(只包含文本),這樣我就可以得到需要的結果是
['Hey', 'This is <b>some text<b/>, right here.', 'Link']
而且最好不字符串,但相當於NavigableStrings或相似。
換句話說,我怎麼能排除一些標籤導航樹?
你是什麼意思*我怎樣才能排除像'B'(只包含文本)標籤,*你認爲是什麼樣的其他標籤是像B? –
只有'我'和可能br,雖然我的html只包含b。我基本上想要從標籤中分離出所有的文本資源,除了'b',我想從中抽取父母的文本,排除其他兄弟標籤中的任何文本。 –
你可以添加一個更復雜的例子,你想要輸出什麼? –