所以我有一個核苷酸序列,我需要計算單詞gaga出現在序列中的次數。這是我到目前爲止有:需要統計字符串中出現字母順序的次數R
dna=c("a","g","c","t")
N=16
x=sample(dna,N,4)
x2=paste(x,collapse="")
x2
下面是一個例子輸出:
gtaggcctaattataa
最終,我會寫一個循環,使這個運行100次,並繪製計數的直方圖單詞「gaga」。所以,我的主要問題是:如何編寫函數或代碼來搜索字符串x2並計算單詞「gaga」的出現次數。
任何幫助,將不勝感激!謝謝!
如何重疊計數?是「gagaga」1還是2?是「gagagaga」2還是3?幾乎可以肯定的是一些Bioconductor軟件包可以非常有效地完成這項工作。從'Biostrings'包中查看'matchPattern'。 –