2013-08-06 88 views
3

我在打印希伯來語單詞時遇到問題。我使用的計數器模塊,以 計數在我給定的文字(這是在希伯來語)的單詞數。計數器確實計數了 這個詞,並且標識了語言,因爲我正在使用# -*- coding: utf-8 -*- 在python上使用希伯來文

問題是,當我打印我的計數器時,我得到了奇怪的符號。 (我使用的Eclipse) 這裏是代碼和印刷:

# -*- coding: utf-8 -*- 
import string 
from collections import Counter 
class classifier: 
def __init__(self,filename): 
    self.myFile = open(filename) 
    self.cnt = Counter() 

def generateList(self): 
    exclude = set(string.punctuation) 
    for lines in self.myFile: 
     for word in lines.split(): 
      if word not in exclude: 
       nWord = "" 
       for letter in word: 
        if letter in exclude: 
         letter = "" 
         nWord += letter 
        else: 
         nWord += letter 
       self.cnt[nWord]+=1 
    print self.cnt 

裴安平:

Counter({'\xd7\x97\xd7\x94': 465, '\xd7\x96\xd7\x95': 432, '\xd7\xa1\xd7\x92\xd7\x95\xd7\xa8': 421, '\xd7\x94\xd7\x92\xd7\x91': 413}) 

關於如何打印詞語的正確方法你知道嗎?

+0

可能是終端依賴 – keyser

+0

對不起爲了不指出這一點,我正在使用eclipse – Itzik984

回答

1

你得到的「怪異符號」是python表示unicode字符串的方式。

你需要它們解碼,例如:

>>>打印 '\ XD7 \ X97 \ XD7 \ x94'.decode(' UTF8' )
חה