3
Java的BreakIterator類允許根據給定語言環境的規則將句子分割成字符,單詞和句子。有人可以給我一個示例文本字符串,其字和句子邊界在不同的語言環境中由BreakIterator進行不同的解釋嗎?Java BreakIterator的單詞和句子拆分器的特定於語言環境的行爲示例?
Java的BreakIterator類允許根據給定語言環境的規則將句子分割成字符,單詞和句子。有人可以給我一個示例文本字符串,其字和句子邊界在不同的語言環境中由BreakIterator進行不同的解釋嗎?Java BreakIterator的單詞和句子拆分器的特定於語言環境的行爲示例?
嗯,這可以解釋,但我認爲Taiwanese locale的例子是一個更好的例子。根據維基百科,這名字叫嘉英,嘉陵江的嘉,英國的英
是一系列中文字(我的名字是Jiāyīng)。 BreakIteator能夠將其解碼爲分詞。
無論我在BreakIterator的getWordInstance()中使用哪種語言環境,它都會將「名字叫嘉英,嘉陵江的嘉,英國的英」分成三個單詞(和「名字叫嘉英嘉陵江的嘉英國的英」逗號 - 只是一個字)。你使用哪對語言你會得到不同的結果? – Psychonaut