對於以下xhtml片段,我需要使用BS4或xpath從結構化html中獲取屬性值對,屬性名稱存在於h5標記中,並且其值隨後在span標籤或ap標籤。使用BeautifulSoup或XPATH獲取內容屬性值對
下面的代碼,我應該得到以下爲詞典輸出:
Husbandary管理: '動物:牛農民:史密斯先生,'
Milch的類別: '牛奶供應'
服務:」牛奶,酥油」
動物的顏色: '紅色,吉恩......'
<div id="animalcontainer" class="container last fixed-height">
<h5>
Husbandary Management
</h5>
<span>
Animal: Cow
</span>
<span>
Farmer: Mr smith
</span>
<h5>
Milch Category
</h5>
<p>
Milk supply
</p>
<h5>
Services
</h5>
<p>
cow milk, ghee
</p>
<h5>
animal colors
</h5>
<span>
green,red
</span>
</div>
htmlcode.findAll( 'H5')發現H5要素,而是我想同時得到H5元件和前另一個 'H5'
我接着說:[沒有( self :: h5)]'爲了在選擇兄弟姐妹 –
時不包含以下'h5'元素,但是它似乎很難理解解決方案,可以用美麗的湯更清楚地做到 – stackit
解釋:'以下兄弟姐妹: :* [not(self :: h5)] [count(before-sibling :: h5)=%d]'%i) – stackit