2016-11-10 161 views
1

我提取鏈接文本與BeautifulSoup,如:BeautifulSoup解析特殊字符

from BeautifulSoup import BeautifulSoup 
import urllib2 
response = urllib2.urlopen(link) 
html = response.read() 
soup = BeautifulSoup(html) 

#print(soup) 
for a in soup.findAll('a',attrs={"class":"link"}): 
    print(a.text) 

但我得到「&#8211」的一個簡單的「-」一些字符。 如何獲得這些人物可讀的字符?

回答

1

嘗試以下操作:

for a in soup.findAll('a',attrs={"class":"link"}): 
    print(a.get_text())