過濾掉3個數據集之間的常見觀測值

-2

我有3個數據集（txt.gz），我已經對它們進行了子集化，使其僅包含p值爲1 * 10^-6或更小的觀測值。過濾掉3個數據集之間的常見觀測值

下一步是檢查一個通用名稱變量（名稱是指SNPs，遺傳學）。

當前表：

name  pval 

rs2575876 8.20660e-07 

rs11834972 4.20460e-07 

rs11050138 4.23080e-07 

rs12313631 7.13600e-07 

rs485538 5.99060e-07

任何想法？

來源

2013-04-11 Gen

您可以發佈'頭（your.data）'所有名稱中出現多個數據集？ – Nishanth 2013-04-11 14:47:27

你的問題不清楚。你的三個數據幀格式是什麼？（顯示你到目前爲止的代碼將有助於澄清問題）。「......具有p值的常見SNP中的SNP」是什麼意思？ – 2013-04-11 14:47:28

我猜'％in％'是你的朋友。 – eddi 2013-04-11 15:23:46

如果我理解正確：

的B數據庫命名錶（B $名）將讓你看到多少次名字已經被重複。

編輯：試試這個

創建表，其中列出了每個數據集

A2 <名字的獨特價值 - 唯一的（一$名）

B2 < - 獨特的（B $ name）

c2 < - unique（c $ names）
追加他們

R1 < - rbind（A2，B2，C2）在該表中
檢查重複

X < - data.frame（表（R1））
只要你喜歡就操縱數據框。即找到

X [X $名稱> 1，]

來源

2013-04-11 15:37:13

其實我有3個不同的數據集，它們使用相同的變量名稱（「name」和「pval」），而我想要做的是首先爲所有3個數據集篩選出低於1 * 10^-6的pvalues，I有單獨的子集。接下來是檢查「姓名」下的相同觀察結果，例如rs12345存在2個數據集甚至3個。 – Gen 2013-04-11 15:40:37

哦，我明白了。這太有趣了。 – 2013-04-11 15:41:56

是的，它是，我已經嘗試了幾件事，但他們沒有給我任何東西:) – Gen 2013-04-11 15:43:09

過濾掉3個數據集之間的常見觀測值

回答

相關問題