2011-06-29 12 views
0

我幾次遇到這個問題,現在我終於決定問,希望有人知道我在說什麼。很難解釋的問題。將字符串下變換/限制爲某個字符集而不剝離

我想做的就是這種形式的字符皈依的:

ÆØÅ => AOA 
ÉÈÊ => EEE 
üÿï => uyi 

到目前爲止,我已經到了一個搜索標準最接近我可以爲這種類型到谷歌:

這沒有按預期工作。 ÉÈÊEEEÆØÅ之間似乎沒有任何相關性。所以,舉起反對E,所有六個字符將被轉換爲E,這不是我正在尋找的準確性。

  • 從產地編碼(如ASCII)到只有字母數字

字符集/編碼consiting我不是很自信對這種做法作爲編碼必須能夠識別皈依,如E,作爲È的祖先/最近(字母數字)鄰居。

我覺得我說的是很多關於球場的話。

有沒有人明白我想要達到的目標,或者知道我要找的這個「方法」是什麼?

任何想法/想法是非常讚賞(我的意思是任何),

  • Mik的

回答

0

我懷疑你不得不考慮的Unicode代碼點的數據庫,映射他們到他們最近的美國ASCII等值(如果可能)。我想這將是一個相對稀疏的地圖,因爲大多數Unicode代碼點沒有US-ASCII等價物。

希望這個答案有一些關鍵詞可以幫助你尋找你想要的東西。

+0

我曾希望避免這種情況,這有點黑名單與白名單問題。如果映射是唯一的選擇,我希望在某個地方會有一個UTF8 - > US ASCII的數組。謝謝您的回答。 – Mik