我有一個美麗的湯的問題。 我嘗試GED在一個字符串去掉html標籤的,所以我有以下功能Python美麗的湯編碼
def cleanHtml(self, html):
try:
soup = BeautifulSoup(html);
content = soup.findAll(text=True)
return ''.join(content);
except:
print html
當我現在做的事:
print {'title' : string_with_german_umlauts}
print {'title' : self.cleanHtml(string_with_german_umlauts)}
我碰到下面的輸出字符串「萊德爾Gürtel」 (意思是皮帶)
{'title': 'Leder G\xc3\xbcrtel'}
{'title': u'Leder G\xfcrtel'}
正確的編碼當然是\ xc3 \ xbc的變音符'ü'。 努力了整整一天得到這個工作後,我就放棄了,問;-)
我感謝所有幫助 THX
如果這可以幫助你:''G \ XC3 \ xbcrtel''是一個字節字符串,'u'G \ xfcrtel''是一個codepoint-string(「Unicode字符串」),相當於'u'G \ u00fcrtel''。 ''G \ xc3 \ xbcrtel'.decode('UTF-8')'返回'u'G \ u00fcrtel''。在進行調試時,請考慮在每一步中數據是以字節還是代碼點的形式存在,以及在哪一個與另一個之間進行轉換時,請考慮使用了哪種編碼。 – wberry 2012-01-31 19:15:57