2014-06-18 47 views
-12

我想計算跨字符串的每個位置處的4個字母的頻率。該字母是A,T,G,C字符串中位置字母的頻率

TGAGGTAGTAGTTTGTGCTGTTAT 
TAGTAGTTTGTGCTGTTA 
TGAGGTAGTAGTTTGTAC 
TGAGAACTGAATTCCATAGG 

所需的輸出:

Pos1 Pos2 Pos3 and so on. 
A 0  1 
T 4  0 
C 0  0 
G 0  3 

到目前爲止,我已經使用的R包叫做Biostrings,它的工作原理,但我不知道的Perl會做到這一點?

+4

到目前爲止,您的嘗試有哪些? – IrishGeek82

+0

...你爲什麼要切換到Perl? –

+2

Perl不會*做到這一點,但是您可以在Perl中做到這一點。但爲什麼? – ooga

回答

6

對於記錄,用於

x = "TGAGGTAGTAGTTTGTGCTGTTAT 
TAGTAGTTTGTGCTGTTA 
TGAGGTAGTAGTTTGTAC 
TGAGAACTGAATTCCATAGG" 

一個Biostrings溶液是

library(Biostrings) 
consensusMatrix(DNAStringSet(strsplit(x, "\n")[[1]])) 

這將是快速數以百萬計的序列。