2012-08-03 18 views
0

我有100例的數據集。每種情況下,有一個類{I,II,III,IV,V}和一個值A和V,每個類將出現在數據集正好是20倍:如何找到值的數據集的分佈,並基於此分佈隨機值?

Class A V 
5  2 3 
1  3 5 
3  2 3 
2  3 5 
3  2 3 
1  2 4 
1  2 4 
1  4 4 
2  3 3 
2  3 4 

我要生成基於該另一百箱子組。我是否正確假設我應該

  1. 找到A的分佈和每個類的V的分佈?
  2. 計算出每類A & V的聯合分佈
  3. 得到在此基礎上聯合分佈

如果是這樣的隨機數,任何指針的Java或Python應用程序或庫讚賞!

+0

「查找」分佈可能是真正艱難的,特別是有這麼幾個記錄 - 你有關於正在生成該數據過程中的任何知識呢?關於班級如何影響A和V以及A和V如何關聯的想法?我認爲這將是一個很大的幫助。您也可以考慮從現有樣本重新取樣(使用替換)。更多的上下文會很有幫助! – 2012-08-03 22:42:25

+0

A和V的分佈幾乎是正常的(雖然FOMR直方圖判斷),所以我生成從該隨機值。 – jorrebor 2012-08-04 09:42:35

回答

0

當我想找到的值在數據集中的分佈我用的是包rriskDistributions的R.這個軟件包,爲用戶提供了圖形用戶界面,允許選擇不將R語法的任何知識最適當的分配。

rriskDistributions PDF