我有一個608,000行(主要7行如下所示)的主表。這些對應於基因組中的位置以及由Affymetrix(和dbSNP)給予它們的一個(或兩個標識符)。篩選器表排除行,如果它們包含第二個表的列中的值
Affy SNP ID dbSNP RS ID Chromosome Chromosome Start
Affx-26018273 rs10056215 5 163542505
Affx-26419011 rs10075407 5 2993645
Affx-18203133 rs10196277 2 149188375
Affx-8147963 rs1021996 12 51789617
Affx-30004198 rs10266230 7 152738841
Affx-26076228 rs10516050 5 168199301
Affx-8225327 rs1059513 12 57489709
然後我有另一個只有46行的表。如果第二個表格的46行中的一行中找到染色體和染色體起始值,我需要刪除主表中的行。這是第二張表格;它沒有Affymetrix/dbSNP標識符。
1 5641055
1 8275761
1 18628674
1 119100982
1 155954058
1 213766407
2 85414016
如何過濾這些記錄?
這給了我共同的元素(即第二張表的全部行)。 我需要主表中沒有出現的全部行。無論如何要否定百分之%? – MolecularAnthropologist
這是可行的,因爲我的排除列表恰好有非重複的基數。 在我的主表中,我有SNP位於相同的鹼基號但位於不同的染色體上(即1989年2期和1989年4月)。例如,如果我想刪除1989年的版本,這個代碼也會刪除1989年的其他染色體的位置。 – MolecularAnthropologist
@leftisthominid我想我明白你的意思,但如果這個問題已經說明已經解決了,而且你已經意識到你的問題有另一個方面,那麼如果你去問一個新的問題,這對未來的讀者會非常有用包含該方面。它可以在那裏得到答案。這是更好的編輯這個問題和答案或在評論中有一個大的線程。 –