如何將日文字符分類爲漢字或片假名或平假名？

我正在研究一些需要對日本語言進行排序的應用程序。如何將日文字符分類爲漢字或片假名或平假名？

日語排序需要片假名和漢字轉換爲平假名，然後根據UTF-8代碼進行排序。

將平假名，片假名和漢字字符合並在一起，並按照平假名等同的「拼寫」進行排序。注意：使用平假名「字母」 - a，i，u，e，o，ka，ki，ku ，科，文，等

我們做這個任務，我需要：

1.Classify日本字符或者漢字或片假名或平假名。

2.將片假名和漢字轉換爲平假名。

3.在拼音（平假名）上進行排序的算法。

應用程序的數據庫是UTF-8。

現在執行第1步：「將日文字符分類爲漢字或片假名或平假名。」，

我想知道在Sqlite3，QT，ICU或其他任何可以給Unicode字符的軟件包中是否有C或C++編程語言的API？

在Unicode的基礎上，我們可以很容易地分類日文字符。

如果我錯了，請糾正我嗎？

來源

2011-03-22 Ashish Yadav

正如你所說，日文字符可以很容易地使用Unicode排序爲組。這是微不足道的。
片假名到平假名的轉換也是微不足道的，因爲有一對一映射。您可以通過Kakasi
將漢字轉換爲平假名首先轉換爲平假名即可完成排序。然而，這是一個窮人的類型，因爲許多漢字是同音詞（相同的聲音，不同的漢字）。所以你應該在平假名轉換和排序之前對漢字進行分類。

你不說你爲什麼需要用這種方式進行排序。如果您告訴我們關於您的應用程序的更多信息，或許我們可以提供更好的建議。

來源

2011-03-22 09:17:11 koan

嗨Ko，謝謝你的信息。 – 2011-03-22 09:49:08

Hi Koan，申請要求說：日文字符列表應按平假名/片假名/漢字特殊字符字母數字排序。平假名，片假名和漢字字符應合併在一起，並按照平假名等同的「拼寫」進行排序。注：使用平假名「字母表」 - a，i，u，e，o，ka，ki，ku，ke，ki 如果平假名，片假名和漢字具有完全相同的聲音，則排序順序應爲平假名→片假名→漢字。你能請更多更好的方法來分類日語嗎？ – 2011-03-22 09:53:04

應用程序要求還說：日語排序需要將Katagana和Kanja轉換爲平假名，然後根據UTF-8代碼進行排序。對於排序表，應使用名稱詞典。以下是OpenSource詞典的一些鏈接： http://www.csse.monash.edu。au /〜jwb/ http://en.wikipedia.org/wiki/ENAMDICT – 2011-03-22 09:56:47

如何將日文字符分類爲漢字或片假名或平假名？

回答

相關問題