2013-04-11 81 views
-2

我有3個數據集(txt.gz),我已經對它們進行了子集化,使其僅包含p值爲1 * 10^-6或更小的觀測值。過濾掉3個數據集之間的常見觀測值

下一步是檢查一個通用名稱變量(名稱是指SNPs,遺傳學)。

當前表:

name  pval 

rs2575876 8.20660e-07 

rs11834972 4.20460e-07 

rs11050138 4.23080e-07 

rs12313631 7.13600e-07 

rs485538 5.99060e-07 

任何想法?

+1

您可以發佈'頭(your.data)'所有名稱中出現多個數據集? – Nishanth 2013-04-11 14:47:27

+3

你的問題不清楚。你的三個數據幀格式是什麼? (顯示你到目前爲止的代碼將有助於澄清問題)。 「......具有p值的常見SNP中的SNP」是什麼意思? – 2013-04-11 14:47:28

+0

我猜'%in%'是你的朋友。 – eddi 2013-04-11 15:23:46

回答

1

如果我理解正確:

的B數據庫命名錶(B $名)將讓你看到多少次名字已經被重複。

編輯:試試這個

  1. 創建表,其中列出了每個數據集

    A2 <名字的獨特價值 - 唯一的(一$名)

    B2 < - 獨特的(B $ name)

    c2 < - unique(c $ names)

  2. 追加他們

    R1 < - rbind(A2,B2,C2)在該表中

  3. 檢查重複

    X < - data.frame(表(R1))

  4. 只要你喜歡就操縱數據框。即找到

    X [X $名稱> 1,]

+0

其實我有3個不同的數據集,它們使用相同的變量名稱(「name」和「pval」),而我想要做的是首先爲所有3個數據集篩選出低於1 * 10^-6的pvalues,I有單獨的子集。接下來是檢查「姓名」下的相同觀察結果,例如rs12345存在2個數據集甚至3個。 – Gen 2013-04-11 15:40:37

+0

哦,我明白了。這太有趣了。 – 2013-04-11 15:41:56

+0

是的,它是,我已經嘗試了幾件事,但他們沒有給我任何東西:) – Gen 2013-04-11 15:43:09