2011-03-22 159 views
2

我正在研究一些需要對日本語言進行排序的應用程序。如何將日文字符分類爲漢字或片假名或平假名?

日語排序需要片假名和漢字轉換爲平假名,然後根據UTF-8代碼進行排序。

將平假名,片假名和漢字字符合並在一起,並按照平假名等同的「拼寫」進行排序。注意:使用平假名「字母」 - a,i,u,e,o,ka,ki,ku ,科,文,等

我們做這個任務,我需要:

1.Classify日本字符或者漢字或片假名或平假名。

2.將片假名和漢字轉換爲平假名。

3.在拼音(平假名)上進行排序的算法。

應用程序的數據庫是UTF-8。

現在執行第1步: 「將日文字符分類爲漢字或片假名或平假名。」 ,

我想知道在Sqlite3,QT,ICU或其他任何可以給Unicode字符的軟件包中是否有C或C++編程語言的API?

在Unicode的基礎上,我們可以很容易地分類日文字符。

如果我錯了,請糾正我嗎?

回答

2
  1. 正如你所說,日文字符可以很容易地使用Unicode排序爲組。這是微不足道的。

  2. 片假名到平假名的轉換也是微不足道的,因爲有一對一映射。您可以通過Kakasi

  3. 將漢字轉換爲平假名首先轉換爲平假名即可完成排序。然而,這是一個窮人的類型,因爲許多漢字是同音詞(相同的聲音,不同的漢字)。所以你應該在平假名轉換和排序之前對漢字進行分類。

你不說你爲什麼需要用這種方式進行排序。如果您告訴我們關於您的應用程序的更多信息,或許我們可以提供更好的建議。

+0

嗨Ko,謝謝你的信息。 – 2011-03-22 09:49:08

+0

Hi Koan,申請要求說:日文字符列表應按平假名/片假名/漢字特殊字符字母數字排序。平假名,片假名和漢字字符應合併在一起,並按照平假名等同的「拼寫」進行排序。注:使用平假名「字母表」 - a,i,u,e,o,ka,ki,ku,ke,ki 如果平假名,片假名和漢字具有完全相同的聲音,則排序順序應爲平假名→片假名→漢字。你能請更多更好的方法來分類日語嗎? – 2011-03-22 09:53:04

+0

應用程序要求還說:日語排序需要將Katagana和Kanja轉換爲平假名,然後根據UTF-8代碼進行排序。對於排序表,應使用名稱詞典。以下是OpenSource詞典的一些鏈接: http://www.csse.monash.edu。au /〜jwb/ http://en.wikipedia.org/wiki/ENAMDICT – 2011-03-22 09:56:47

相關問題