2011-03-21 22 views
0

我收到來自谷歌地圖API的結果不一致,檢查這兩個變種的是傳統和簡化中國

|Head southwest on 吳江路/吳江路 toward 泰興路/泰興路 
|Head southwest on TRAD/SIMP toward SIMP/TRAD 

目前我匹配中國話與此正則表達式([^\u0000-\u0080]|/)+

然後我爆炸的比賽,並配對吳江路 vs 吳江路,刪除常見字符,有沒有辦法告訴哪個是傳統還是簡化字符?

回答

1

您需要一個用於Unicode的傳統 - >簡化映射表。谷歌它,你會很容易找到一個。如果你找不到一個,那麼你可以通過下載一個Big5-> GB映射表,然後將雙方轉換爲Unicode(通過Big5-> Unicode和GB-> Unicode映射表,這些表很容易獲得)。

如果您在「簡化」部分找到一個字符,那麼它很可能是一個簡化字符(因爲傳統字符映射到此字符)。

請注意,這不是一種科學方法,因爲多個傳統字符可能映射到單個簡化字符,並且簡化字符可能與傳統字符相同。在這種情況下,您需要決定是否將其稱爲傳統或不傳統。

例如,後有時映射到後簡化,但它也與傳統的「皇后」字符相同。

如果您只是映射字符對,則可以嘗試在兩個方向上查找轉換。至多你會發現一個方向的轉換,這就是你的答案。