2013-10-24 49 views
0

我已經搜索,但沒有找到適當的答覆。用美麗的湯解析時,刪除頭標籤之間的任何內容

url = "http://en.wikipedia.org/wiki/Bryan_Greenberg" 
opener = urllib2.build_opener() 
opener.addheaders = [('User-agent', 'Mozilla/5.0')] 
try: 
    ourUrl = opener.open(url).read() 
    soup = BeautifulSoup(ourUrl) 
except Exception,err: 
    continue 
dem = soup.findAll('p') 

我剛剛複製了腳本的一部分。我如何刪除標題和標籤中放置的所有內容。所以它不會來湯。謝謝。

+0

爲什麼要刪除該內容?在我看來,當抓取一個HTML文件時,我更感興趣的是找到一小部分要使用和使用的網頁,而不是找到它的一部分不使用。 – pandubear

+0

我想要的一切。但我想刪除頭標記中的任何東西 – user2878953

回答

1

我沒有安裝BeautifulSoup所以它是未經測試,但應該做的我猜的伎倆:

使用extract()方法:

markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>' 
soup = BeautifulSoup(markup) 
a_tag = soup.a 

i_tag = soup.i.extract() 

a_tag 
# <a href="http://example.com/">I linked to</a> 

其中代替soup.i.extract()把你不需要的標籤名稱,比如soup.head.extract()。請注意,這可能會從文檔中刪除所有標題或標題(如果碰巧有任何額外的標籤),我完全不知道從未使用過此功能。

+0

不給出錯誤 – user2878953

+1

究竟是什麼錯誤? – nutship