我想知道是否有任何關係或現有算法允許從UTF8代碼頁中的國家字符轉換爲等效的拉丁字符?是否有可能將語言特定的字符轉換爲UTF8中的拉丁字符
例如(波蘭):
A - >甲
Ó - > 0
ż - >ž
¼的 - >ž ...
短語如:'zażółćgęśląjażń'
轉換爲:'zazolc gesla jazn'
目前我正在使用波蘭語的轉換數組,但我正在尋找處理所有基於拉丁語言的通用解決方案。
感謝
我想知道是否有任何關係或現有算法允許從UTF8代碼頁中的國家字符轉換爲等效的拉丁字符?是否有可能將語言特定的字符轉換爲UTF8中的拉丁字符
例如(波蘭):
A - >甲
Ó - > 0
ż - >ž
¼的 - >ž ...
短語如:'zażółćgęśląjażń'
轉換爲:'zazolc gesla jazn'
目前我正在使用波蘭語的轉換數組,但我正在尋找處理所有基於拉丁語言的通用解決方案。
感謝
不能完全肯定,這是一個明確的答案,你會需要,但是當我過去不得不這樣做,我已將所有'特殊'字符轉換爲命名或數字實體,以便在轉換過程中對其進行保護。
爲了讓答案完整,'Unicode分解+ C#'讓我看到了這個CodeProject文章(codeproject.com/KB/cs/UnicodeNormalization.aspx?display=Print),它提供了一個隨時可用的解決方案。命名您尋找的能力不能低估;)感謝所有答案。
更新:我需要在.NET應用程序中完成它並使用字符串變量。這是一種單向轉換,因此不需要像Pooli建議的那樣存儲任何附加信息。謝謝。 – tomekole 2011-06-14 11:00:12
首先檢查你是否確實需要去掉口音。沒有真正的「等值」拉丁字符,你總是以這種方式散佈信息。但是,如果你這樣做,有一些像iconv庫或像unicode分解的東西。 – schlenk 2011-06-14 11:00:44
謝謝施倫克。 Unicode分解似乎正是我需要的。 – tomekole 2011-06-14 11:29:49