2012-09-26 42 views
2

我試圖'智能地'將地名字符串轉換爲ASCII。我想我正在尋找的是音譯。我能夠使用「uconv」 UTIL取得一些令人鼓舞的成果:如何使用uconv將地名列表轉換爲ASCII?

說我的輸入是「安巴拉」:

uconv -x Latin-ASCII input.dat > output.dat 

相應的輸出將是「Embera的」 - 這正是我想要的。但是,在某些情況下,我沒有得到預期的結果(可能如果輸入不是以拉丁文開頭?)。例如,檢查這個地方(我不能複製並正確地將名稱粘貼到此文本框中)http://maps.google.ca/maps?q=karpos+macedonia&hl=en&ie=UTF8&hnear=Karpo%C5%A1,+Macedonia+(FYROM)&t=m&z=12

理想情況下,將被音譯成「Karpos」(我認爲),但是如果我使用它作爲uconv的輸入,使用上述命令,uconv根本不會修改它。

因此,考慮地名列表(這裏的列表中,如果任何人的好奇 - http://www.mediafire.com/file/gb0guu117yp1p26/test.dat),我該如何將它們轉換成ASCII碼?

回答

2

嘗試-x 'Any-Latin;Latin-ASCII' 您還可以添加--to-callback escape-unicode -t ascii力一切都在輸出ASCII,否則像{U+3045}

請注意,'智能'是......相對於此處。你正在剝離大量的信息,並通過幾層翻譯。這不會有太大的幫助,但是如果你知道文本是從希臘文到英文(這是el-en),那麼你可以做類似-x 'el-en;Any-Latin;Latin-ASCII'的東西,那麼它可以嘗試使用語言特定的音譯。