2011-09-09 41 views
-1

我正在創建一個Java應用程序,我有一段我想從中獲取單詞。我想編寫一個正則表達式來只抓取英文單詞並忽略其中有重音的任何單詞(有1個或更多非英文字母)。如何忽略包含口音的所有單詞(非英文單詞)?

例子:berøres團隊

我應該用\ p {M}或什麼AF埃勒呃afgørende?

+2

英語單詞在其中有重音標記。嘖!不是很學習,呃? – tchrist

+4

許多非英語單詞在其中沒有重音標記。 –

+5

[英語](http://en.wikipedia.org/wiki/Diacritic#English)單詞可以有口音和標點符號。例如,收縮(「不」,「不能」),藉詞(「naïve」,「café」),複合詞「消防員」和專有名稱(「Zöe」)就是例子。 –

回答

2

這將匹配包含字母A-Z的所有單詞。

(?:^|\s)[a-zA-Z]+(?=\s|$) 

某些口味的正則表達式會在重音字符上匹配\b。因此,如果這是一項要求,則需要向前瞻添加標點符號。

相關問題