2016-12-02 16 views
0

我正在使用Stata和調查可變家庭淨財富NetWealth)。昆泰不同數量的觀察

我要構建這個變量的五分之一,並使用下面的命令 - 你可以看到我使用的調查數據,因此申請調查權:

xtile Quintile = NetWealth [pw=surveyweight], nq(5) 

然後我給下面的命令來檢查什麼我已獲得:

tab Quintile, sum(NetWealth) 

這是結果:

 Means, Standard Deviations and Frequencies of DN3001 Net wealth 

     5 | 
quantiles | 
of dn3001 |  
-----------+-----------+ 
     1 |1519.4221 
      |43114.959 
      |  154 
-----------+-----------+ 
     2 | 135506.67 
      | 74360.816 
      |  179 
-----------+-----------+ 
     3 | 396712.16 
      | 69715.49 
      |  161 
-----------+-----------+ 
     4 | 669065.69 
      | 111102.02 
      |  182 
-----------+-----------+ 
     5 | 2552620.5 
      | 3872350.9 
      |  274 
-----------+-----------+ 
    Total | 957419.29 
      | 2323329.8 
      |  950 

爲什麼我在每個五分位數中得到不同數量的家庭?特別是在最後五分位?

我能想出的唯一解釋是當Stata構建了具有xtile的五分位數時,它從計算中排除了那些顯示NetWealth重複值的觀察值。在諮詢Stata material時,我也有這種印象。

您認爲如何?

回答

1

只要你不給出一個獨立的例子,你的問題是不完全可重複的,但總的來說,這裏沒有難題。

尋求這種區別的人往往會遇到一個小問題,因爲他們的觀察次數不是他們想要的基於分位數的區間數的倍數(意思是確切的倍數),但在您的情況下,

. di 154 + 179 + 161 + 182 + 274 
950 

表明你有950周的觀察,這是5×190

的更大的交易 - 在這裏,幾乎總是 - 源自塔塔的規則,在不同的觀測相同的值必須被分配到同樣的bin。所以,關係可能是這裏的問題。

您可能有三種可能的解決方案。只有一個涉及直接編碼。

  1. 住在裏面。

  2. 做別的事。例如,你爲什麼要這樣做?爲什麼不使用原始數據?

  3. 嘗試不同的邊界條件。要做到這一點,只需取消該變量並將該版本刪除即可。然後邊界上的值將跳轉不同。

在我看來,將隨機噪聲添加到單獨的關係是完全不可能的。這是不可重複的(除了平凡的使用相同的程序和相同的設置),並且在相同的觀察值對其他變量的影響方面會有不同的含義。

下面是一個例子,其中#3沒有幫助,但它有時做:

. sysuse auto, clear 
(1978 Automobile Data) 

. xtile bin5 = mpg, nq(5) 

. gen negmpg = -mpg 

. xtile bin5_2 = negmpg, nq(5) 

. tab bin5 

5 quantiles | 
    of mpg |  Freq.  Percent  Cum. 
------------+----------------------------------- 
      1 |   18  24.32  24.32 
      2 |   17  22.97  47.30 
      3 |   13  17.57  64.86 
      4 |   12  16.22  81.08 
      5 |   14  18.92  100.00 
------------+----------------------------------- 
     Total |   74  100.00 

. tab bin5_2 

5 quantiles | 
    of negmpg |  Freq.  Percent  Cum. 
------------+----------------------------------- 
      1 |   19  25.68  25.68 
      2 |   12  16.22  41.89 
      3 |   16  21.62  63.51 
      4 |   13  17.57  81.08 
      5 |   14  18.92  100.00 
------------+----------------------------------- 
     Total |   74  100.00 

也見一些討論this paper

第4節中我無論如何看不出一絲的文檔是xtile在會以您暗示的方式忽略觀察結果。你沒有給出明確的引用來支持這一點。除非有指示,否則排除任何非缺失值是不正確的。

我不直接在這裏評論pweight的使用,除了使用pweight s可能是一個複雜的因素在這裏。

+0

我意識到我在這裏並不清楚,當我說:「......當Stata用xtile構造五分位數時,它從計算中排除了那些顯示NetWealth重複值的觀察值。」我其實是指你用粗體字寫的。 – Fuca26

+2

如果你的意思是,那很好,但**排除**是完全錯誤的,因爲發生了什麼。所有這些值都包含在計算和結果中。 –

+0

也謝謝你的參考,非常清楚!謝謝! – Fuca26