1
我正在製作一個webscraper,並且我想完全刪除幾個div,因爲它們不是我對數據的分析所必需的。 我用美麗的湯解析數據,但我不能弄清楚如何完全消除一個div刪除Python中兩個html標籤之間的所有數據
我正在製作一個webscraper,並且我想完全刪除幾個div,因爲它們不是我對數據的分析所必需的。 我用美麗的湯解析數據,但我不能弄清楚如何完全消除一個div刪除Python中兩個html標籤之間的所有數據
您可以使用類似以下內容:
>>> import bs4
>>> blah = '<div id="test"><p>one</p></div><div id="okay"><p>something</p></div>'
>>> soup = bs4.BeautifulSoup(blah)
>>> soup('div', {'id': 'test'})[0].extract()
<div id="test"><p>one</p></div>
>>> soup
<html><body><div id="okay"><p>something</p></div></body></html>
這可能會幫助:http://stackoverflow.com/questions/2649751/python-remove-everything-between-div-class-comment-any-div – danseery
lxml.html: from lxml import html doc = html.fromstring(input) for el in doc.cssselect ('div.comment'): el.drop_tree() result = html.tostring(doc) – Chipmunk