2012-09-17 49 views
0

我試圖從包含小說文本的文件讀取。我想閱讀每一個連續的單詞,但當然小說中有標點符號這一事實使得這很困難。通過小說文本解析的正則表達式

我需要閱讀小說中的單詞,所以忽略「,」「!」等字符。和「?」,但我需要包含某些非字母字符,例如實際上是字的一部分的撇號。

我不是偉大的正則表達式,但我的感覺是,這個正則表達式只有抓住字符,但不佔撇號:

[^A-Za-z]+ 

誰能幫我弄一個正則表達式將被劃字,忽略標點符號,但保留撇號和其他字符構成單詞的一部分?

回答

-1

只需包含要包含在[]括號內的其他特殊字符。有些角色可能需要轉義。我已經包含撇號,你在下面:

/([^A-Za-z']+)/ 
+0

這不是答案。它翻譯爲「捕獲任何不是字母或撇號的東西。 – marklark

1

你的模式應該是這個樣子:

\b[a-zA-Z]+[\']*[a-zA-Z]*\b

它佔了字邊界,並允許1撇號。其他特殊字符可放入第二組方括號中。