2015-05-30 30 views
10

我試圖將電話(字符)出現在一個字符串中,但變音符列表爲字符。理想情況下,我在國際音標字母表中有一個單詞表,有相當數量的變音符號和它們與基本字符的幾種組合。我只用一個詞給這裏一個MWE,但是同樣有單詞列表和更多類型的組合。使用R中的變音符製表字符

> word <- "n̥ana" # word constituted by 4 phones: [n̥],[a],[n],[a] 
> table(strsplit(word, "")) 
̥ a n 
1 2 2 

但通緝的結果是:

a n n̥ 
2 1 1 

我怎麼能設法得到這種結果?

回答

7

嘗試

library(stringi) 
table(stri_split_boundaries(word, type='character')) 
#a n n̥ 
#2 1 1 

或者

table(strsplit(word, '(?<=\\P{Ll}|\\w)(?=\\w)', perl=TRUE)) 
#a n n̥ 
#2 1 1