我正在研究一些需要對日本語言進行排序的應用程序。如何將日文字符分類爲漢字或片假名或平假名?
日語排序需要片假名和漢字轉換爲平假名,然後根據UTF-8代碼進行排序。
將平假名,片假名和漢字字符合並在一起,並按照平假名等同的「拼寫」進行排序。注意:使用平假名「字母」 - a,i,u,e,o,ka,ki,ku ,科,文,等
我們做這個任務,我需要:
1.Classify日本字符或者漢字或片假名或平假名。
2.將片假名和漢字轉換爲平假名。
3.在拼音(平假名)上進行排序的算法。
應用程序的數據庫是UTF-8。
現在執行第1步: 「將日文字符分類爲漢字或片假名或平假名。」 ,
我想知道在Sqlite3,QT,ICU或其他任何可以給Unicode字符的軟件包中是否有C或C++編程語言的API?
在Unicode的基礎上,我們可以很容易地分類日文字符。
如果我錯了,請糾正我嗎?
嗨Ko,謝謝你的信息。 – 2011-03-22 09:49:08
Hi Koan,申請要求說:日文字符列表應按平假名/片假名/漢字特殊字符字母數字排序。平假名,片假名和漢字字符應合併在一起,並按照平假名等同的「拼寫」進行排序。注:使用平假名「字母表」 - a,i,u,e,o,ka,ki,ku,ke,ki 如果平假名,片假名和漢字具有完全相同的聲音,則排序順序應爲平假名→片假名→漢字。你能請更多更好的方法來分類日語嗎? – 2011-03-22 09:53:04
應用程序要求還說:日語排序需要將Katagana和Kanja轉換爲平假名,然後根據UTF-8代碼進行排序。對於排序表,應使用名稱詞典。以下是OpenSource詞典的一些鏈接: http://www.csse.monash.edu。au /〜jwb/ http://en.wikipedia.org/wiki/ENAMDICT – 2011-03-22 09:56:47