1
我有一個問題派生關係構建的邊緣名單,我有幾百萬行的文件安排像這樣:從兩個柱狀文件的第二列從第一列
1 Protein_A
1 Protein_B
2 Protein_A
3 Protein_C
4 Protein_A
4 Protein_B
4 Protein_C
4 Protein_D
5 Protein_C
5 Protein_D
凡列1表示相互作用途徑,第2欄表示蛋白質的ID。任何人都可以推薦我可以排序成只(非互惠)每個網絡如相互作用的邊緣列表這樣的一個有效的方法:
1 Protein_A,Protein_B
4 Protein_A,Protein_B
4 Protein_A,Protein_C
4 Protein_A,Protein_D
4 Protein_B,Protein_C
5 Protein_C,Protein_D
5 Protein_C,Protein_D
或者給我到哪裏找這樣的數據的指示?
我嘗試了外殼腳本,它通過文件慢慢迭代並刪除新線在導致以下的文件的末尾:然而
1 Protein_A 1 Protein_B
這可以被加工成一個邊,這如果網絡中有超過2種蛋白質,則不起作用。我正在畫空白。任何人都可以幫忙嗎?
預先感謝您。