我在R中問了這個問題,並得到了很多答案,但是所有這些答案在運行了幾個小時後都會讓我的4Gb Ram計算機崩潰,或者他們需要很長時間才能完成。 faster way to compare rows in a data frame快速比較數據集中的行的方法
有人說這不是在R做的工作。因爲我不知道C和我在Perl上有點流利,所以我會在這裏問。
我想知道是否有一種快速的方法來比較大型數據集的每一行與其他行,以確定具有特定同源性程度的行。比方說,下面是簡單的例子,我想同源性> = 3
data:
sample_1,10,11,10,13
sample_2,10,11,10,14
sample_3,10,10,8,12
sample_4,10,11,10,13
sample_5,13,13,10,13
輸出應該是這樣的:
output
sample duplicate matches
1 sample_1 sample_2 3
2 sample_1 sample_4 4
3 sample_2 sample_4 3
也許嘗試['領帶::陣列:: CSV'](HTTP:// search.cpan.org/perldoc?Tie%3A%3AArray%3A%3ACSV) – TLP
它花了我30多分鐘來寫一個腳本,所以不打擾:) – Vorsprung
命令重要嗎?例如10,11,10,13和11,11,10,13應該返回3個匹配還是0個匹配? – psxls