我正在使用BeautifulSoup從HTML中提取一些文本,但我無法弄清楚如何正確地將其打印到屏幕(或針對該文件)。打印utf-8編碼的字符串
這裏是我的包含文字類的樣子:
class Thread(object):
def __init__(self, title, author, date, content = u""):
self.title = title
self.author = author
self.date = date
self.content = content
self.replies = []
def __unicode__(self):
s = u""
for k, v in self.__dict__.items():
s += u"%s = %s " % (k, v)
return s
def __repr__(self):
return repr(unicode(self))
__str__ = __repr__
嘗試打印的Thread
這裏一個實例就是我在控制檯上看到:
~/python-tests $ python test.py
u'date = 21:01 03/02/11 content = author = \u05d3"\u05e8 \u05d9\u05d5\u05e0\u05d9 \u05e1\u05d8\u05d0\u05e0\u05e6\'\u05e1\u05e7\u05d5 replies = [] title = \u05de\u05d1\u05e0\u05d4 \u05d4\u05de\u05d1\u05d7\u05df '
無論我嘗試,我不能讓我想要的輸出(上面的文本應該是希伯來文)。我的最終目標是將Thread
序列化爲一個文件(使用json或pickle)並且能夠讀取它。
我在Ubuntu 10.10上運行Python 2.6.6。
我試圖用csv模塊寫入CSV文檔時,前幾天遇到類似的問題。 PITA。但'encode()'是要走的路。 – 2011-03-05 10:50:26
我有同樣的問題,但它是關於我的MySQL連接沒有'charset = utf8'! – kommradHomer 2014-07-21 14:59:04