Unicode字符串提取和比較

1.val Matcher = """.+/(.*)""".r 
2.val Matcher(title) = """http://en.wikipedia.org/wiki/Château_La_Louvière""" 
3.val lowerCase = title.toLower 
4.if(lowercase.equals("château_la_louvière")) //do something

上述比較返回false，因爲我猜測第2行導致Ch？teau_La_Louvi？re。任何想法我可以做到這一點？Unicode字符串提取和比較

來源

2012-11-12 Harshal Pandya

對我來說，你的代碼片段工作得很好。檢查您的區域設置。同時檢查，'SYS.PROPS（「file.encoding的」）'應該是'UTF-8' – 4e6

似乎並沒有得以順利。我明確地將文件編碼設置爲UTF-8仍然沒有運氣。 –

我在使用JDK7和它爲我工作的Mac上。 –

由於4e6表示問題在於Java的標準配置。其中假設所有文件都以Latin1編碼。

1.val Matcher = """.+/(.*)""".r 
2.val Matcher(title) = """http://en.wikipedia.org/wiki/Château_La_Louvière"""

這可以通過設置以下是固定的Java-OPTS

export JAVA_OPTS='-Dfile.encoding=UTF-8'

仍爲1和2會的工作，即使你不改變編碼。問題在於3.和4.。

3.val lowerCase = title.toLower 
4.if(lowercase.equals("château_la_louvière")) //do something

'TOLOWER'會導致測試在4失敗，因爲「A」和「E」會被錯誤地解釋。這些字符將被編碼爲兩個到四個字節，其中每個將被小寫獨立地由此得到完全不同的結果爲「」château_la_louvière「」。

來源

2012-11-12 13:48:02

Unicode字符串提取和比較

回答

相關問題