我有一句話,我希望從中提取所有單詞。我將一個詞定義爲[a-zA-Z],但是一個詞也可能包含一個撇號。撇號本身不是一個詞。我正在用Python3進行編程。正則表達式將句子分成簡單的英文單詞
輸入文本:
Don't-thread 0 '' ' 'on \r\nme!
應該給:
Don't
thread
on
me
關於正則表達式的分裂。然後我將轉換使用python如下:
Don't -> dont
thread -> thread
on -> on
me -> me
更多輸入:
''Kay', he said. 'What're you goin' to do?'
正則表達式分裂和Python的翻譯應該給:
''Kay' -> kay
he -> he
said -> said
'What're -> whatre
you -> you
goin' -> going
to -> to
do -> do
這是我目前使用:
\b(\S+)\b
這顯然符合比我感興趣的
UPDATE多了不少:
詞可以用單引號開始。比如「Get'em!」
聽起來更像分裂雖然...你有沒有嘗試過任何至今爲止的事情?你正在使用什麼語言/正則表達式引擎? – Jerry
什麼旅行你喜歡? – Almo
我們在這裏不是爲你做整個工作(即使它很簡單)。請告訴我你的方法 –