我有一個文本文件,它看起來像這樣列怎麼經常出現:的Perl(或R,或SQL):統計字符串跨越
gene1 gene2 gene3
a d c
b e d
c f g
d g
h
i
(每列是一個人的基因,每個包含可變數目的蛋白質(字符串,在這裏顯示爲字母),可以綁定到這些基因)。
我想要做的是計算每個字符串多少列代表了,輸出數量和所有的列標題,就像這樣:
a 1 gene1
b 1 gene1
c 2 gene1 gene3
d 3 gene1 gene2 gene3
e 1 gene2
f 1 gene2
g 2 gene2 gene3
h 1 gene2
i 1 gene2
我一直在試圖找出如何做到這一點在Perl和R中,但迄今沒有成功。謝謝你的幫助。
列是製表符分隔還是空格式?這將決定如何對待他們。 –