0
我有100例的數據集。每種情況下,有一個類{I,II,III,IV,V}和一個值A和V,每個類將出現在數據集正好是20倍:如何找到值的數據集的分佈,並基於此分佈隨機值?
Class A V
5 2 3
1 3 5
3 2 3
2 3 5
3 2 3
1 2 4
1 2 4
1 4 4
2 3 3
2 3 4
我要生成基於該另一百箱子組。我是否正確假設我應該
- 找到A的分佈和每個類的V的分佈?
- 計算出每類A & V的聯合分佈
- 得到在此基礎上聯合分佈
如果是這樣的隨機數,任何指針的Java或Python應用程序或庫讚賞!
「查找」分佈可能是真正艱難的,特別是有這麼幾個記錄 - 你有關於正在生成該數據過程中的任何知識呢?關於班級如何影響A和V以及A和V如何關聯的想法?我認爲這將是一個很大的幫助。您也可以考慮從現有樣本重新取樣(使用替換)。更多的上下文會很有幫助! – 2012-08-03 22:42:25
A和V的分佈幾乎是正常的(雖然FOMR直方圖判斷),所以我生成從該隨機值。 – jorrebor 2012-08-04 09:42:35