在python上使用希伯來文

我在打印希伯來語單詞時遇到問題。我使用的計數器模塊，以計數在我給定的文字（這是在希伯來語）的單詞數。計數器確實計數了這個詞，並且標識了語言，因爲我正在使用# -*- coding: utf-8 -*- 在python上使用希伯來文

問題是，當我打印我的計數器時，我得到了奇怪的符號。（我使用的Eclipse）這裏是代碼和印刷：

# -*- coding: utf-8 -*- 
import string 
from collections import Counter 
class classifier: 
def __init__(self,filename): 
    self.myFile = open(filename) 
    self.cnt = Counter() 

def generateList(self): 
    exclude = set(string.punctuation) 
    for lines in self.myFile: 
     for word in lines.split(): 
      if word not in exclude: 
       nWord = "" 
       for letter in word: 
        if letter in exclude: 
         letter = "" 
         nWord += letter 
        else: 
         nWord += letter 
       self.cnt[nWord]+=1 
    print self.cnt

裴安平：

Counter({'\xd7\x97\xd7\x94': 465, '\xd7\x96\xd7\x95': 432, '\xd7\xa1\xd7\x92\xd7\x95\xd7\xa8': 421, '\xd7\x94\xd7\x92\xd7\x91': 413})

關於如何打印詞語的正確方法你知道嗎？

來源

2013-08-06 Itzik984

可能是終端依賴 – keyser

對不起爲了不指出這一點，我正在使用eclipse – Itzik984

你得到的「怪異符號」是python表示unicode字符串的方式。

你需要它們解碼，例如：

>>>打印 '\ XD7 \ X97 \ XD7 \ x94'.decode（' UTF8' ）
חה

來源

2013-08-06 12:35:04 Eran

在python上使用希伯來文

回答

相關問題