2013-07-17 56 views
1

我已標記的詞性使用tagPOS 一個字符串後標記現在我想UNTAG串並取回,因爲它是以前。R:如何取消標記句子,通過tagPOS

library(openNLP) 
str <- "this is the a demo string. Which is used to show tagPOS capability. 
And I want to untagged the tagged sentence. 
Kindly help to do this." 
tagged_str <- tagPOS(str) 
print(tagged_str) 

輸出:

「這個/ DT是/ VBZ的/一個DT/DT演示/ NN string./NN哪個/ WDT是用來/ VBN到/顯示/ VBZ/VB tagPOS/NNS能力./。 和/ CC I/PRP想/ VBP到/ TO不標記/ VB/DT標記/ JJ句子./NN Kindly/RB help/VB to/TO do/VB this./。「

所需的輸出:

這是一個演示字符串。這是用來顯示tagPOS功能。 而我想標記帶標籤的句子。 請幫助做到這一點「

+0

爲什麼在標記之前不要複製它? – agstudy

+1

他們有'str'的​​副本 –

回答

1

這裏是一個可能的解決方案:

paste(sapply(strsplit(tagged_str, "/|\\s"), "[", c(TRUE, FALSE)), collapse = " ") 

編輯:

根據您的新的要求有點不同的方法:

paste(unlist(strsplit(tagged_str, "/[[:upper:]]*\\s|/\\.")), collapse = " ") 
+0

謝謝@Tyler Rinker。 –

+0

但@Tyler Rinker,這也將排除包含可選單詞如'他/她','是/否'等的字符串。 對此的任何建議。 –