是否有可能將語言特定的字符轉換爲UTF8中的拉丁字符

我想知道是否有任何關係或現有算法允許從UTF8代碼頁中的國家字符轉換爲等效的拉丁字符？是否有可能將語言特定的字符轉換爲UTF8中的拉丁字符

例如（波蘭）：

A - >甲

Ó - > 0

ż - >ž

¼的 - >ž ...

短語如：'zażółćgęśląjażń'

轉換爲：'zazolc gesla jazn'

目前我正在使用波蘭語的轉換數組，但我正在尋找處理所有基於拉丁語言的通用解決方案。

感謝

2011-06-14 tomekole

更新：我需要在.NET應用程序中完成它並使用字符串變量。這是一種單向轉換，因此不需要像Pooli建議的那樣存儲任何附加信息。謝謝。 – tomekole 2011-06-14 11:00:12

首先檢查你是否確實需要去掉口音。沒有真正的「等值」拉丁字符，你總是以這種方式散佈信息。但是，如果你這樣做，有一些像iconv庫或像unicode分解的東西。 – schlenk 2011-06-14 11:00:44

謝謝施倫克。 Unicode分解似乎正是我需要的。 – tomekole 2011-06-14 11:29:49

檢查：

在一般情況下，尋找一些所謂的iconv

2011-06-14 10:42:25

不能完全肯定，這是一個明確的答案，你會需要，但是當我過去不得不這樣做，我已將所有'特殊'字符轉換爲命名或數字實體，以便在轉換過程中對其進行保護。

2011-06-14 10:45:06 Pooli

爲了讓答案完整，'Unicode分解+ C＃'讓我看到了這個CodeProject文章（codeproject.com/KB/cs/UnicodeNormalization.aspx?display=Print），它提供了一個隨時可用的解決方案。命名您尋找的能力不能低估;）感謝所有答案。

2011-06-15 10:01:26 tomekole

回答