2017-06-09 55 views
2

參考question,我在下面的示例中遇到了一些困難。如何使用正則表達式提取字符串用於POS標記

"I/PRP did/VBD n't/RB experienced/VBN much/JJ service/NN differentiation/NN" The/DT desktop/NN and/CC CAD/NN support/NN is/VBZ working/VBG as/IN expected/VBN CAD-support/NNP Desktop/NNP management/NN related/VBD to/TO LSB/NNP Desktop/NNP management/NN team/NN is/VBZ very/RB committed/VBN ./." 

由於「not」和連字符「CAD-Support」中有撇號,結果未能如預期那樣。我按照要求將其作爲新查詢發佈。任何人都可以幫助我解決這個問題。謝謝!!

回答

0

如果你想使用以前的解決方案,你需要改變的是正則表達式

[^\s/]+ 

代碼:

str_extract_all(str1, "[^\\s/]+") 

regex demo

它將匹配除空白和/以外的一個或多個字符。

爲了避免匹配./.,你需要使用像

\w+(?:['-]\w+)* 

代碼:

str_extract_all(str1, "\\w+(?:['-]\\w+)*") 

,將匹配1+字字符,隨後爲'- 0+序列接着是1個字以上的字符。見this regex demo

相關問題