我有一個HTML頁面是這樣的:的Python/BeautifoulSoup - 提取DIV內容檢查H1文字
<div class="class1">
<div class="head">
<h1 class="title">Title 1</h1>
<div class="body">
<!-- some body content -->
</div>
</div>
</div>
<div class="class1">
<div class="head">
<h1 class="title">Title 2</h1>
<div class="body">
<!-- some body content -->
</div>
</div>
</div>
我需要提取從div
內容與class body
只有標題等於「Title 2
」。由於它們的父容器沒有特定的ID或類,所以h1
文本是識別所有div的唯一方法。目前我使用此代碼:
from bs4 import BeautifoulSoup
# code to open the webpage
soup = BeautifulSoup(data, 'lxml')
body_content = soup.findAll('div', {'class':'class1'})[1]
但是,這是不是很優雅,因爲它假設我感興趣在div始終是頁面的第二個 - 它不檢查的標題。