2015-10-13 70 views
0

我有美國人口樣本的數據。樣本的數據集有N = 10,000條記錄。每行由定量解釋變量E來描述,該價格影響人們返回購買物品的概率R。樣本和羣體有必要具有類似的分佈,以確保將統計模型鏈接到R的統計模型的有效性。R:將探索變量的分佈調整爲已知的非正態分佈

美國人羣和樣本中的E的頻率分佈之間存在顯着差異(參見下面的摘要)。特別是,正態分佈似乎不能很好地描述人口分佈。

Value of E Population Distribution of E Sample Distribution of E 
0-10  56.57% 92.95% 
10.01 - 20 6.90% 1.19% 
20.01 - 30 8.29% 1.38% 
30.01-40 5.87% 0.85% 
40.01 - 50 8.18% 0.32% 
50.01 - 60 4.63% 0.48% 
60.01-70 1.34% 0.32% 
70.01 - 80 1.50% 0.08% 
80.01 - 90 0.29% 0.49% 
90.01-100 3.72% 1.12% 
100.01-110 2.10% 0.69% 
110.01-120 0.24% 0.00% 
120.01+  0.35% 0.13% 

有什麼好東西在[R做,使樣品的Ë - 配送更接近民衆的,希望能夠與之匹敵?我試圖過濾低E值的示例數據無濟於事。同時,由於大多數常見轉換試圖使數據符合正態分佈,所以我不太確定要使用哪種轉換 - 這在這裏似乎不適用。

我自己認爲E的轉換(可能包括加權)是允許的,刪除行可接受的邊界和創建禁止的新行---但是我希望任何關於什麼操作通常被認爲在類似的情況下被認爲是允許的我的。

感謝您的輸入。

最佳,

PDE

+0

這真的是一個R特定的問題嗎?你會怎麼做它的任何語言。如果你沒有答案,那麼這個問題可能更適合[stats.se]討論統計主題。 – MrFlick

+0

因爲這個問題的理論/統計方面是非常強大的,所以我確實發佈了交叉驗證。然而,我希望能夠深入瞭解人們如何使用R來嘗試將數據「適合」已知的非正態分佈。我廣泛使用R來確保正常,但這是我第一次不得不處理這種問題。 – PDE

回答

0

的最佳方式,這將是使用預測區間。很明顯,您的大部分樣本的E值都很低。這意味着您對E的低值的R的預測值相對有信心。但是,當您遠離數據範圍時(即非常E的高值),你對R的預測就沒那麼自信了。