df
Beginning1 Protein2 Protein3 Protein4 Biomarker1
Pathway3 A G NA NA F
Pathway6 A G NA NA E
Pathway1 A B C D F
Pathway2 A B H NA F
Pathway4 A B C D E
Pathway5 A B H NA F
我想重新排列上面的數據框(df),以便在它們的蛋白質路徑中共享最大相似性的路徑(又名最大相似性在列2:4中)被排序爲彼此相鄰。如何根據行的相似性對數據幀進行排序和排序
更清楚,我想輸出看起來像這樣:
newdf
Beginning1 Protein2 Protein3 Protein4 Biomarker1
Pathway6 A G NA NA E
Pathway3 A G NA NA F
Pathway5 A B H NA E
Pathway2 A B H NA F
Pathway4 A B C D E
Pathway1 A B C D F
一個人怎麼會去這樣做呢?我已經嘗試過包括獨特(df)在內的各種變體,但目前爲止還沒有任何工作。
此外,雖然按非NA字符的數量排序可用於此數據集,但我將分析的實際數據集將具有數百個具有相同步驟數量的路徑。
請勿發佈數據圖片。保持您的數據在[可重現的格式](https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example) – MrFlick
謝謝!我是Stack Overflow的新手,不確定如何在問題中輸入我的數據框。 –
雖然不是所有情況下都不行,但可以使用基本的R'order'函數對數據進行排序:'df [with(df,order(Beginning1,Protein2,Protein3,Protein4)),]' 。 – lmo