2012-01-24 26 views
5

我追趕希伯來文的部分(原產地是在一個新聞網站評論)採用以下正則表達式:如何用Java中的正則表達式來捕捉希伯來語?

[\u0590-\u05FF \\p{Graph} \\s]+ 

它適用於大多數的評論,但一些評論被錯過。

我試圖調試這個,它似乎有一個希伯來字母不符合模式。

當我抽出這封信,並打印出來的整型值似乎是正確的,但仍然是正則表達式不抓住它......

想法?

+0

您是否在'Pattern.compile'方法中使用'Pattern.UNICODE_CASE'? –

+0

不,我應該嗎? – lribinik

+0

嘗試一下:'Pattern p = Pattern.compile(「YOUR_REGEX」,Pattern.UNICODE_CASE);' –

回答

0

這將是更正確的語義上使用\p{InHebrew}代替\u0590-\u05FF

你也需要匹配標點符號,數字(至少,世界通用的)和別樣的空間。 我不知道什麼是\p{Graph},並且是否有任何希伯來語特有的標點符號,但看起來,您錯過了一些部分。