2012-11-30 85 views
1

我正在製作一個webscraper,並且我想完全刪除幾個div,因爲它們不是我對數據的分析所必需的。 我用美麗的湯解析數據,但我不能弄清楚如何完全消除一個div刪除Python中兩個html標籤之間的所有數據

+0

這可能會幫助:http://stackoverflow.com/questions/2649751/python-remove-everything-between-div-class-comment-any-div – danseery

+0

lxml.html: from lxml import html doc = html.fromstring(input) for el in doc.cssselect ('div.comment'): el.drop_tree() result = html.tostring(doc) – Chipmunk

回答

1

您可以使用類似以下內容:

>>> import bs4 
>>> blah = '<div id="test"><p>one</p></div><div id="okay"><p>something</p></div>' 
>>> soup = bs4.BeautifulSoup(blah) 
>>> soup('div', {'id': 'test'})[0].extract() 
<div id="test"><p>one</p></div> 
>>> soup 
<html><body><div id="okay"><p>something</p></div></body></html> 
相關問題