2017-07-07 97 views
0

結構如下考慮一個數據庫:[R尋找模式

<Age> <Gender> <Field1> <Field2> <Field3> <Field4> <Field#> 

其中的每一行,一些領域可能爲零,另一些則不會,代表的時間從個體量使用這樣的字段 - 可以爲每一行使用多個字段。

例如,考慮DB的存在:

10 M 10 0 5 0 1 
5 M 7 1 6 0 2 
10 M 6 1 4 1 0 
.... 

所以我們可以說,對於10歲和男性個體的模式,將是第一個和第三個領域是最具代表性的。

我不確定我的解釋是否有意義。這是可以實現的嗎?有這種問題的算法/ R包嗎?

+0

豈不' Field1'和'Field3'是最常用的? – herbaman

+0

是的,我會錯過它哈哈謝謝 – JDoe

回答

0

想到的是子集。如果我正確理解你的問題。 查找子集,我還不能肯定我的代碼是正確的......

DF [其中(DF $年齡= 10 & DF $性別= M)]

+0

我欣賞@Valerie S的幫助,但那不是重點。設想你會根據年齡標籤10和男性性別對數據進行子集分類,最後會提供 - 在所提供的例子中 - 兩行。現在對於這兩行,我試圖實現的是按照我想象的頻率檢測現有字段「Field *」上的模式。 – JDoe