我有興趣找到字符串x= "A T G C C G C G T"
的ngrams
。我使用ngram
R
包得到ngrams
。我使用以下幾行來完成我的工作。ngrams的順序不正確
library(ngram)
ng <- ngram(x,n=2)
ngrams_out = get.ngrams(ng)
ngrams_final <- gsub(" ", "",ngrams_out , fixed = TRUE)
# "CG" "TG" "AT" "GC" "CC" "GT" ## ngrams
這給所有無重複上述字符串的ngrams
,但我很驚訝,ngrams
不正確的順序。該訂單對於追蹤ngram
的位置非常重要。 ngrams
的正確順序是"AT","TG","GC","CC","CG","GC","CG","GT"
重複,從那裏我可以清楚地確定給定字符串中特定ngram
的位置。
怎麼樣'x =「ATGCCGCGT」' –
'gsub(「\\ B」,「」,x,perl = T)'然後在上面應用上面的這個.. –
如果我想組合三個或者像ATG,TGC,GCC,CCG,CGC,GCG,CGT或ATGC,TGCC,GCCG,CCGC,CGCG,GCGT一樣,每次4個或更多。 –