我試圖從包含小說文本的文件讀取。我想閱讀每一個連續的單詞,但當然小說中有標點符號這一事實使得這很困難。通過小說文本解析的正則表達式
我需要閱讀小說中的單詞,所以忽略「,」「!」等字符。和「?」,但我需要包含某些非字母字符,例如實際上是字的一部分的撇號。
我不是偉大的正則表達式,但我的感覺是,這個正則表達式只有抓住字符,但不佔撇號:
[^A-Za-z]+
誰能幫我弄一個正則表達式將被劃字,忽略標點符號,但保留撇號和其他字符構成單詞的一部分?
我試圖從包含小說文本的文件讀取。我想閱讀每一個連續的單詞,但當然小說中有標點符號這一事實使得這很困難。通過小說文本解析的正則表達式
我需要閱讀小說中的單詞,所以忽略「,」「!」等字符。和「?」,但我需要包含某些非字母字符,例如實際上是字的一部分的撇號。
我不是偉大的正則表達式,但我的感覺是,這個正則表達式只有抓住字符,但不佔撇號:
[^A-Za-z]+
誰能幫我弄一個正則表達式將被劃字,忽略標點符號,但保留撇號和其他字符構成單詞的一部分?
只需包含要包含在[]
括號內的其他特殊字符。有些角色可能需要轉義。我已經包含撇號,你在下面:
/([^A-Za-z']+)/
你的模式應該是這個樣子:
\b[a-zA-Z]+[\']*[a-zA-Z]*\b
它佔了字邊界,並允許1撇號。其他特殊字符可放入第二組方括號中。
這不是答案。它翻譯爲「捕獲任何不是字母或撇號的東西。 – marklark