2011-03-05 143 views
17

我正在使用BeautifulSoup從HTML中提取一些文本,但我無法弄清楚如何正確地將其打印到屏幕(或針對該文件)。打印utf-8編碼的字符串

這裏是我的包含文字類的樣子:

class Thread(object): 
    def __init__(self, title, author, date, content = u""): 
     self.title = title 
     self.author = author 
     self.date = date 
     self.content = content 
     self.replies = [] 

    def __unicode__(self): 
     s = u"" 

     for k, v in self.__dict__.items(): 
      s += u"%s = %s " % (k, v) 

     return s 

    def __repr__(self): 
     return repr(unicode(self)) 

    __str__ = __repr__ 

嘗試打印的Thread這裏一個實例就是我在控制檯上看到:

~/python-tests $ python test.py 
u'date = 21:01 03/02/11 content = author = \u05d3"\u05e8 \u05d9\u05d5\u05e0\u05d9 \u05e1\u05d8\u05d0\u05e0\u05e6\'\u05e1\u05e7\u05d5 replies = [] title = \u05de\u05d1\u05e0\u05d4 \u05d4\u05de\u05d1\u05d7\u05df ' 

無論我嘗試,我不能讓我想要的輸出(上面的文本應該是希伯來文)。我的最終目標是將Thread序列化爲一個文件(使用json或pickle)並且能夠讀取它。

我在Ubuntu 10.10上運行Python 2.6.6。

+0

我試圖用csv模塊寫入CSV文檔時,前幾天遇到類似的問題。 PITA。但'encode()'是要走的路。 – 2011-03-05 10:50:26

+0

我有同樣的問題,但它是關於我的MySQL連接沒有'charset = utf8'! – kommradHomer 2014-07-21 14:59:04

回答

17

要將Unicode字符串輸出到文件(或控制檯),您需要選擇文本編碼。在Python默認的文本編碼是ASCII,但支持希伯來文字符,您需要使用不同的編碼,如UTF-8:

s = unicode(your_object).encode('utf8') 
f.write(s) 
+0

我是;你看到的輸出是'print a_thread'的輸出。 – daniel 2011-03-05 10:15:18

+0

在內部'print x'調用'x .__ str__',而在你的類中定義'__str__'和'__repr__'一樣。 – 2011-03-05 10:19:04

+0

那麼'__str__'應該做什麼?如果我正確閱讀文檔,它不應該返回一個「unicode」對象。 – daniel 2011-03-05 10:22:00

7

一個不錯的選擇,@馬克的回答是設置環境變量PYTHONIOENCODING=UTF-8

c.fWriting unicode strings via sys.stdout in Python

+0

是的!但是程序中的os.putenv('PYTHONIOENCODING','UTF-8')對我來說不起作用? – tbc0 2016-10-06 20:19:27