我有一個包含關於日本字和字符信息的兩個Python字典:
迭代通過unicode字符串和使用Unicode比較Python字典
- vocabDic:包含的詞彙,重點:字,值:隨着信息詞典它
KANJIDIC:包含漢字(單日文字符),鍵:漢字,值:字典,它
現在的信息,我想迭代通過量h vocabDic中每個單詞的每個字符,並在漢字字典中查找該字符。我的目標是創建一個csv文件,然後我可以將它導入數據庫,作爲詞彙和漢字的連接表。
我的Python版本是2.6
我的代碼如下:kanjiVocabJoinWriter = csv.writer(open('kanjiVocabJoin.csv', 'wb'), delimiter=',', quotechar='|', quoting=csv.QUOTE_MINIMAL) kanjiVocabJoinCount = 1 #loop through dictionary for key, val in vocabDic.iteritems(): if val['lang'] is 'jpn': # only check japanese words vocab = val['text'] print vocab # loop through vocab string for v in vocab: test = kanjiDic.get(v) print v print test if test is not None: print str(kanjiVocabJoinCount)+','+str(test['id'])+','+str(val['id']) kanjiVocabJoinWriter([str(kanjiVocabJoinCount),str(test['id']),str(val['id'])]) kanjiVocabJoinCount = kanjiVocabJoinCount+1
如果我打印變量的命令行,我得到:
翻譯:作品,在日本
打印v(for循環中詞彙的一個字符):
測試(字符在漢字中查找):無
對我來說,似乎for循環會擾亂編碼。
我試過各種功能(解碼,編碼..),但沒有運氣到目前爲止。
關於如何使這項工作有任何想法?
幫助將非常感激。
您可以使用python 3 - 它的unicode更好嗎 – Mark
或者'from __future__ import unicode_literals'? – utdemir
非常感謝!更新到python 3解決了這個問題:D – daniela