2016-10-23 45 views
1

如何刪除標籤,例如<U+0924><U+0930><U+0938><U+0902><U+0917><U+0924> 存在於句子中。 Via- <U+0924><U+0930><U+094D><U+0915><U+0938><U+0902><U+0917><U+0924> - Tarksangat ~<U+0938><U+092F><U+094D><U+092F><U+0926> <U+092E><U+0902><U+095B><U+0930> <U+0907><U+092E><U+093E><U+092E>R刪除標籤,開頭爲U

我需要輸出:Via- Tarksangat

誰能幫助我?謝謝!

+0

請提供可再現的例子。也許'gsub(「(<[^>)+>){1,}」,「」,str1)' – akrun

+0

這些不是「標籤」,它們是Unicode字符。 –

回答

2

希望這可能是有用的

ab <- unlist(strsplit(abc,"[[:punct:]]")) 
ab <- gsub("[[:punct:]]|[0-9]","",ab) 

ab <- paste0(ab[nchar(ab)>2],collapse="-") 
[1] "Via- Tarksangat " 

數據
abc <- "Via- <U+0924><U+0930><U+094D><U+0915><U+0938><U+0902><U+0917><U+0924> - Tarksangat ~<U+0938><U+092F><U+094D><U+092F><U+0926> <U+092E><U+0902><U+095B><U+0930> <U+0907><U+092E><U+093E><U+092E>" 
+0

我不需要U0924,我想消除完整的標籤。我試過這些句子< - gsub('[[:punct:]]',「」,句子) 句子< - gsub('[[:cntrl:]]',「,句子) sentence < gsub('\\ d +',「」,句子)'但它沒有工作 –

+0

此更新後的輸出爲「'uuuduuuuu tarksangat uufudufu ueuubu uueueue'。請在上述更新的問題中查找輸入字符串。 –

0

試試這個

<U.*?> 

和空字符串替換

Explnation

你可以試試這個:

re = /<U.*?>/ 
str = 'asdfasdf <U+0924><U+0930><U+0938><U+0902><U+0917> tsdfasf <U+0924> 1sadfasdf a2sdf 3sdafasdf <U+0924><U+0930>5<U+0938> 4asdfasdf <U+0902><U+0917><U+0924>' 
subst = '' 

result = str.gsub(re, subst) 

# Print the result of the substitution 
puts result 
+0

'句子< - gsub(「」,「」,句子)'不工作 –

+0

你正在嘗試什麼語言?紅寶石? –

+0

語言是R,我試圖在R工作室 –