3
我在打印希伯來語單詞時遇到問題。我使用的計數器模塊,以 計數在我給定的文字(這是在希伯來語)的單詞數。計數器確實計數了 這個詞,並且標識了語言,因爲我正在使用# -*- coding: utf-8 -*-
在python上使用希伯來文
問題是,當我打印我的計數器時,我得到了奇怪的符號。 (我使用的Eclipse) 這裏是代碼和印刷:
# -*- coding: utf-8 -*-
import string
from collections import Counter
class classifier:
def __init__(self,filename):
self.myFile = open(filename)
self.cnt = Counter()
def generateList(self):
exclude = set(string.punctuation)
for lines in self.myFile:
for word in lines.split():
if word not in exclude:
nWord = ""
for letter in word:
if letter in exclude:
letter = ""
nWord += letter
else:
nWord += letter
self.cnt[nWord]+=1
print self.cnt
裴安平:
Counter({'\xd7\x97\xd7\x94': 465, '\xd7\x96\xd7\x95': 432, '\xd7\xa1\xd7\x92\xd7\x95\xd7\xa8': 421, '\xd7\x94\xd7\x92\xd7\x91': 413})
關於如何打印詞語的正確方法你知道嗎?
可能是終端依賴 – keyser
對不起爲了不指出這一點,我正在使用eclipse – Itzik984