html內容我也有類似的HTML文件如下:按順序分組按標籤
<h2>section 1</h2>
<p>para 1</p>
<p>para 2</p>
<p>para 3</p>
<h2>section 2</h2>
<p>para 1</p>
<p>para 2</p>
<p>para 3</p>
<h2>section 3</h2>
<p>para 1</p>
<p>para 2</p>
<p>para 3</p>
我想刮那些到Python字典:{'section1':'...', 'section2':'...', 'section3':'...'}
,我當然可以設置一個current_section
變量和使用while循環,但有沒有爲此目的的模塊? 我檢查了BeautifulSoup,但沒有找到一個捷徑。
謝謝!
這是一個壞主意 - 使用HTML解析器是更好的選擇。 –
這可以將整個html頁面分成組,但不會將其中的文本提取到字典中。 – qed