我試圖從文件中取出所有有效的單詞。有效字被定義爲能夠出現像這樣普通字符:正則表達式
don't won't can't
,我必須忽略逗號週期和驚歎號。
我已經得到了表達只是得到字符,但現在它不會得到像don't and can't or won't
這樣的詞。
這是我正在使用的表達式"[^A-Za-z]+"
,我試過"\'[^A-Za-z]+"
但是這會中斷並允許所有字符。有沒有人有任何想法,我可以用來獲得正常的話,包括不會和不會,也不會這樣的話。
非常感謝您
我試圖從文件中取出所有有效的單詞。有效字被定義爲能夠出現像這樣普通字符:正則表達式
don't won't can't
,我必須忽略逗號週期和驚歎號。
我已經得到了表達只是得到字符,但現在它不會得到像don't and can't or won't
這樣的詞。
這是我正在使用的表達式"[^A-Za-z]+"
,我試過"\'[^A-Za-z]+"
但是這會中斷並允許所有字符。有沒有人有任何想法,我可以用來獲得正常的話,包括不會和不會,也不會這樣的話。
非常感謝您
[^A-Za-z]
將意味着什麼不匹配的字符範圍!試試這個:
[A-Za-z']
您可能需要逃脫單引號,在這種情況下,你可能需要逃脫逃脫它的斜線:
[A-Za-z\\']
我在做[^ A-Za-z \'] +這是好嗎? – mkuk
刪除'^',表示不匹配方括號中的任何內容! –
如果我不打印出字符和空格,那就是爲什麼我加上 – mkuk