我在網上找到了諸如http://www.chinesetopinyin.com/等將漢字轉換爲拼音(羅馬字符)的地方。有誰知道如何做到這一點,或有一個可以解析的數據庫?將中文轉換爲拼音
編輯:我使用C#但實際上更喜歡數據庫/平面文件。
我在網上找到了諸如http://www.chinesetopinyin.com/等將漢字轉換爲拼音(羅馬字符)的地方。有誰知道如何做到這一點,或有一個可以解析的數據庫?將中文轉換爲拼音
編輯:我使用C#但實際上更喜歡數據庫/平面文件。
使用Python可能的解決方案:
我認爲Unicode數據庫包含了中國文字拼音羅馬拼音,但這些並不包括在unicodedata
模塊的數據。
但是,你可以使用一些外部的庫,例如cjklib,例如:
# coding: UTF-8
import cjklib
from cjklib.characterlookup import CharacterLookup
c = u'好'
cjk = CharacterLookup('T')
readings = cjk.getReadingForCharacter(c, 'Pinyin')
for r in readings:
print r
輸出:
hāo
hǎo
hào
UPDATE
cjklib配備了一個獨立的cjknife
實用程序, micht幫助。一些用法描述如下:here
好吧,首先,我用我的問題在這裏得到統一:
Converting chinese character to Unicode
然後拿着像這樣的文件,將其轉換:http://www.ic.unicamp.br/~stolfi/voynich/Notes/061/uc-to-py.tbl
..如果你想要ascii-only或數字表示,你可以找到如何在文檔中做到這一點,或者你可以選擇第一個拼音和刪除口音:http://stackoverflow.com/questions/517923/what-is-the-best-方式去除的,accen ts-in-a-python-unicode-string – mykhal 2010-08-26 02:48:55
Unicode確實有一個Character to Pinyin映射表,它被稱爲Unihan並且有大量數據。 :) – cburgmer 2012-05-20 20:53:23
'提高ValueError,'未知區域設置:%s'%localename ValueError:未知區域設置:UTF-8'任何想法? – jokoon 2012-09-16 22:53:53