2016-11-15 37 views
0

我嘗試用beatifulSoup解決問題。 我有內容BeatifulSoup以「•」的形式迴應內容

content =""" 
<div class="topinfo title">Kategorie: <b>Serie</b> • Datum: <b>15.11.16</b> • IMDB: <a href="http://dontknow.me/at/?http://www.imdb.com/title/tt0092455/"> 
</div> 
""" 

我想擁有的是「基準」字段中,但我不能得到的是工作。 我想:

soup = BeautifulSoup(content, "html.parser") 
info = {} 
for details in soup.find_all("div", {"class" : "topinfo title"}): 
    info[details.text.strip(':')] = details.next_sibling.strip('\n') 

,但我不能得到它的工作...

回答

0

我不知道你的需要,但這也許工作:

from bs4 import BeautifulSoup 
doc ='''<div class="topinfo title">Kategorie: <b>Serie</b> • Datum: <b>15.11.16</b> • IMDB: <a href="http://dontknow.me/at/?http://www.imdb.com/title/tt0092455/"> 
</div>''' 
soup = BeautifulSoup(doc, 'lxml') 
soup.get_text() 

出來:

'Kategorie: Serie • Datum: 15.11.16 • IMDB: \n' 

如果你明白了這一點,你可以隨心所欲地玩它。