2010-12-10 20 views
3

我們試圖找到一個允許我們將句子分成單詞的正則表達式。 當然,直接的答案是使用\w,除了它不分割我們需要的_。 然後,我們試圖[a-zA-Z0-9](我們希望允許裏面的話號碼),問題是,它分裂口音上,這是在許多LANGUES相當普遍...Ruby正則表達式匹配單詞,包括重音符號和其他UTF8字符

所以,理想情況下,正則表達式是什麼我應該使用下面的話分裂下面的句子:

「JE NEdégustePAS D'asperges,車濟n'aime PAS CA」

信息

[「Je」,「ne」,「déguste」,「pas」,「d」, 「asperges」,「car」,「je」, 「n」「aime」「pas」 CA「]

+2

看一看這個紅寶石論壇主題:http://www.ruby-forum.com/topic/415626 – 2010-12-10 01:40:12

回答

2
STR = "Je ne déguste pas d'asperges, car je n'aime pas ça" 
words = STR.split /[\s,']+/ 
for w in words 
    print w, "\n" 
end 

輸出是:

Je 
ne 
déguste 
pas 
d 
asperges 
car 
je 
n 
aime 
pas 
ça 
相關問題