用美麗的湯解析時，刪除頭標籤之間的任何內容

我已經搜索，但沒有找到適當的答覆。用美麗的湯解析時，刪除頭標籤之間的任何內容

url = "http://en.wikipedia.org/wiki/Bryan_Greenberg" 
opener = urllib2.build_opener() 
opener.addheaders = [('User-agent', 'Mozilla/5.0')] 
try: 
    ourUrl = opener.open(url).read() 
    soup = BeautifulSoup(ourUrl) 
except Exception,err: 
    continue 
dem = soup.findAll('p')

我剛剛複製了腳本的一部分。我如何刪除標題和標籤中放置的所有內容。所以它不會來湯。謝謝。

來源

2013-10-24 user2878953

爲什麼要刪除該內容？在我看來，當抓取一個HTML文件時，我更感興趣的是找到一小部分要使用和使用的網頁，而不是找到它的一部分不使用。 – pandubear

我想要的一切。但我想刪除頭標記中的任何東西 – user2878953

我沒有安裝BeautifulSoup所以它是未經測試，但應該做的我猜的伎倆：

使用extract()方法：

markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>' 
soup = BeautifulSoup(markup) 
a_tag = soup.a 

i_tag = soup.i.extract() 

a_tag 
# <a href="http://example.com/">I linked to</a>

其中代替soup.i.extract()把你不需要的標籤名稱，比如soup.head.extract()。請注意，這可能會從文檔中刪除所有標題或標題（如果碰巧有任何額外的標籤），我完全不知道從未使用過此功能。

來源

2013-10-24 17:04:29 nutship

不給出錯誤 – user2878953

究竟是什麼錯誤？ – nutship

用美麗的湯解析時，刪除頭標籤之間的任何內容

回答

相關問題