我試圖將這行烏爾都語轉換爲拉丁語,然後將拉丁字符轉換爲ASCII(通過刪除重音符等),但它似乎缺少一些字符。爲什麼從烏爾都語到拉丁語的音譯不能在icu4c中正確使用?
爲什麼還有非拉丁字符(「ہ」,「ے」等)?
$ uconv -x 'Any-Latin'
دفعہ 1: تمام انسان آزاد اور حقوق و عزت کے اعتبار سے برابر پیدا ہوۓ ہیں۔ انہیں ضمیر اور عقل ودیعت ہوئی ہے۔ اس لئے انہیں ایک دوسرے کے ساتھ بھائی چارے کا سلوک کرنا چاہئے
dfʿہ 1: tmạm ạnsạn ậzạd ạwr ḥqwq w ʿzt ḵے ạʿtbạr sے brạbr py̰dạ ہwے̉ ہy̰ں۔ ạnہy̰ں ḍmy̰r ạwr ʿql wdy̰ʿt ہwỷy̰ ہے۔ ạs lỷے ạnہy̰ں ạy̰ḵ dwsrے ḵے sạtھ bھạỷy̰ cẖạrے ḵạ slwḵ ḵrnạ cẖạہỷے
爲什麼音譯器Any-ASCII
不轉換爲ASCII碼?
$ uconv -x 'Any-Latin; Latin-ASCII'
دفعہ 1: تمام انسان آزاد اور حقوق و عزت کے اعتبار سے برابر پیدا ہوۓ ہیں۔ انہیں ضمیر اور عقل ودیعت ہوئی ہے۔ اس لئے انہیں ایک دوسرے کے ساتھ بھائی چارے کا سلوک کرنا چاہئے
dfʿہ 1: tmam ansan azad awr hqwq w ʿzt kے aʿtbar sے brabr pyda ہwے̉ ہyں۔ anہyں dmyr awr ʿql wdyʿt ہwyy ہے۔ as lyے anہyں ayk dwsrے kے satھ bھayy charے ka slwk krna chaہyے
$ uconv -x 'Any-Latin; Latin-ASCII' -t latin1
دفعہ 1: تمام انسان آزاد اور حقوق و عزت کے اعتبار سے برابر پیدا ہوۓ ہیں۔ انہیں ضمیر اور عقل ودیعت ہوئی ہے۔ اس لئے انہیں ایک دوسرے کے ساتھ بھائی چارے کا سلوک کرنا چاہئے
Conversion from Unicode to codepage failed at output byte position 2. Unicode: 02bf Error: Invalid character found