我現在正在使用BeautifulSoup刮一些網站,但是我有一些特定字符的問題,UnicodeDammit內的代碼似乎表明這(再)是一些微軟發明的。逃離…與BeautifulSoup
我使用BeautifulSoup的最新版本(3.0.8.1),因爲我仍在使用的python2.5
下面的代碼說明我的問題:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup('...Baby One More Time (Digital Deluxe Version…')
print soup
'...Baby One More Time (Digital Deluxe Version…'
正如你所看到的問題是最後一個'&'(& hellip)字符(您的瀏覽器可能正確地轉義了)。顯然這不是我所感興趣的。
這將是很高興有這個字符unicode表示或什麼的。即使單純地忽視它也能解決我的特殊問題。
我如何用BeautifulSoup做到這一點?