我使用Text::Ngrams
來確定字符串中的單詞組合。但是,我需要保留有數字的單詞。我確定$o->{tokenrex}
是我需要修改的,但我無法確定它的正確的正則表達式。使用正則表達式匹配包含數字的單詞
原來是qr/([a-zA-Z]+|(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?)/;
但我想我需要沿此線的東西更多:
qr/([a-zA-Z]+|(?<=\w)(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?(?=\w)|(\d+(\.\d+)?|\d*\.\d+)([eE][-+]?\d+)?)/;
哪些應該,如果我讀正確的正則表達式,匹配任意數量的字母字符,或在其前後具有單詞字符的「數字」或「數字」。除了它將我的「單詞」分解爲單獨的標記。我正在使用的示例詞是「A1X」。
任何協助將是偉大的。
學習如何使用並喜歡'x'正則表達式修飾符,它允許您在正則表達式中使用空格(空格,製表符,換行符)來格式化 – 2011-03-10 16:45:40
@Eric Strom我完全打算;我想在嘗試解釋它做什麼之前先讓它工作:) – 2011-03-10 18:05:01
這就是要點。如果你能看到它的功能,它更容易工作! – ridgerunner 2011-04-03 02:07:06