我是R新手,需要處理此問題的建議:2個表之間的高級數據匹配
我有2個表。表的開始如下所示:
表1:
SNP Gene Pval Best_SNP Best_Pval
rs2932538 ENSG00000007341 5.6007
rs10488631 ENSG00000064419 7.7461
rs12537284 ENSG00000064419 4.5544
rs3764650 ENSG00000064666 12.3401
rs10479002 ENSG00000072682 5.0141
rs6704644 ENSG00000072682 6.2306
rs2900211 ENSG00000072682 9.9022
表2:
Best_SNP Gene Best_Pval
rs9028922 ENSG00000007341 10.7892
rs8233293 ENSG00000064666 89.342
rs3234432 ENSG00000072682 32.321
rs2892334 ENSG00000064419 43.235
表1包含SNP的每個基因的整個列表。表2包含表1中出現的每種基因的最佳SNP和相應的最佳Pval。
我想要做以下事情:匹配表1到表2中的每個基因,然後從表2中複製Best_SNP和Best_Pval並將它們粘貼到表1中的Best_SNP和Best_Pval列中。 棘手的部分是在表1中,每個基因重複一個隨機的,不同數量的行。例如,第二個基因ENSG00000064419重複2行,ENSG00000072682重複3行。因此,代碼需要通過基因名稱進行篩選,並且只對同一個基因拷貝Best_SNP和Best_Pval 一次。
因此,對於基因ENSG00000072682,在3行中,只有第一行看起來包含該基因需要填充Best_SNP和Best_Pval列。我不希望剩下的兩行重複請填寫Best_SNP和Best_Pval列。可以更輕鬆地查看每個基因的起始位置和結束位置。
這是那種'在Excel vlookup'功能。你可以在R中看到[這裏](http://stackoverflow.com/questions/15303283/how-to-do-vlookup-and-fill-down-like-in-excel-in-r) – Metrics