2013-04-06 78 views
1

我有一個文件.ped誰包含多列,我想從中提取信息。 這裏我的數據的樣本(沒有標頭):使用r的數據處理

1 1 1 
1 2 1 
2 3 2 
3 4 1 
3 5 2 
... 

第一列表示的ID家族,第二個ID的個體,個體的第三性別。

我讀表作爲數據幀

ped <- read.table("pedigree.ped", header=FALSE) 

我如何計算家庭的數量存在(一個家庭可以出現一個以上的時間,我要考慮他們作爲一個)? 我有一個性別專欄,其中1個指定男性和2個女性,我如何獲得數據集中男性和女性的分佈?

我是R新手,如果你可以給一些代碼!

謝謝先進。

+1

請發送您的數據樣本。 – 2013-04-06 01:48:27

+0

^^^ this - 'head(ped)' – Nishanth 2013-04-06 01:50:12

+0

請給我指數 – 2013-04-06 02:14:51

回答

2

既然你是R的新手,我會建議先看看excel。你所要求的操作相當簡單,可以在Excel中完成。

如果要使用,則成爲考慮data.frame索引,子集等

如果您熟悉SQL,來看一下,sqldf package

多的家庭:

numFamilies <- length(unique(ped[,1])) 

男性數量&女性:

numMales <- sum(ped[,3] == 1) 
numFemales <- sum(ped[,3] == 2) 
+0

SQL和R的關係是什麼? – 2013-04-06 01:54:49

+1

很多R語法新手都熟悉sql界面。 select,count,groupby等。您可以使用sqldf包查詢data.frame對象。 – Nishanth 2013-04-06 01:59:44

+0

@ e4e5f4:不一定。 – Metrics 2013-04-06 02:01:04

2

請嘗試使用此功能瀏覽數據:

For family: 
table(ped[,1]) 

For sex: 
table(ped[,3])