0
我有一個數據幀(DF1)在R的長格式約430,000行和4列。我想按文件對觀察進行分組,然後按名稱進行分組,然後按列表定義的特定順序進行排序,然後連接列GT中的值。該表具有以下格式:組的行由兩個變量,按列表排序列值,然後連接
# Assay Name GT file
# as1 Fred AG file1.csv
# as2 Fred GT file1.csv
# as3 Fred TC file1.csv
# as2 Curt AG file1.csv
# as1 Curt GG file1.csv
# as3 Curt TT file1.csv
# as1 Fred AG file2.csv
# as2 Fred NA file2.csv
# as3 Fred TC file2.csv
所需的輸出應該是這樣的:
# Name GT_concatenated
# Fred AGGTTC
# Curt GGAGTT
# Fred AG TC
這意味着測定列需要通過這個列表的第一個C進行排序(「AS1」,「AS2 「,」as3「),然後連接。我曾經嘗試這樣做:
這給了我想要的輸出,但不排序,併爲「NA」值沒有空格。
我有一個答案,但我刪除它,因爲我不知道我理解你想要的輸出。 Fred file1行看起來似乎是AGGTTC,但您已將其列爲GTAGGT。這看起來像as2,as1,as3,我不明白。 – HarlandMason
@HarlandMason我會繼續併發布你的答案,因爲它可能是一個錯字。你可以在進一步澄清後編輯你的答案 – CPak
是的,在那一個上打字。我糾正了它。 – CXK