2011-04-07 31 views
4

如果我在java中有一個字符串,我該如何確定它屬於哪種語言? Unicode規範是否允許我們這樣做?確定Java中的unicode字符串的語言

+3

哇,你的意思是你想確定'.'屬於哪一種語言?祝你好運:-)我希望你會喜歡有序的「可能的語言」列表 – Riduidel 2011-04-07 14:07:09

回答

5

如果字符串甚至是單詞或短語,Unicode字符串中沒有指定該字符串所處的語言的元數據。

根據字符串中包含的字符,您可能能夠猜出正在使用的語言。例如,Unicode範圍30A0-30FF表示日語片假名字符。所以如果你的字符串大部分都是由該範圍內的字符組成的,你可以猜測它是日文的。雖然這並不可靠。例如,如果它只是隨機片假名字符呢?爲了可靠的語言檢測,我將放棄使用Unicode作爲語言檢測基礎的所有想法,並專注於語言識別算法。