2017-04-14 42 views
0

我嘗試用一​​個例子來解釋它。如何表徵值的分佈?

在一所學校有n班。在每個類別中有k個學生,k從1到700,n和k都是已知的。

我需要一種方法來描述每個班級學生姓名的分佈情況。例如,A班有10名學生,其中3名被命名爲「約翰」,3名「馬克」和3名「安妮」。另一班有100名學生,每個人都被命名爲「安東」。

我需要一個能夠指示每個班級名稱分佈的測量。例如(這不重要),如果一個班級中的每個人都有相同的名字,那麼它可能是1;如果同一班級中沒有兩個相同的名字,則該值爲0。

換句話說,一種通過名稱分佈對類進行排序的方法。

回答

1

聽起來像你想要一個「contingency table」。您可以隨意選擇哪些變量作爲行與列來使用,但是表格條目可以是計數,也可以是類別交集中出現次數的比例。

隨着例如你給:在右側和沿底部

     Class 
        A  B 
       _________________ 
     Anne | 3 | 0 | 3 
Names Anton | 0 | 100 | 100 
     John | 3 | 0 | 3 
     Mark | 3 | 0 | 3 
    Unknown | 1 | 0 | 1 
      |--------|--------|---- 
       10  100 | 110 

值被稱爲「邊際總計」,或者比例,「邊緣分佈」。右下角是您的數據總量,通過對行或列邊距進行求和而獲得。 (他們更好地出來了!)對於比例,總和必須是1.