昆泰不同數量的觀察

我正在使用Stata和調查可變家庭淨財富NetWealth）。昆泰不同數量的觀察

我要構建這個變量的五分之一，並使用下面的命令 - 你可以看到我使用的調查數據，因此申請調查權：

xtile Quintile = NetWealth [pw=surveyweight], nq(5)

然後我給下面的命令來檢查什麼我已獲得：

tab Quintile, sum(NetWealth)

這是結果：

 Means, Standard Deviations and Frequencies of DN3001 Net wealth 

     5 | 
quantiles | 
of dn3001 |  
-----------+-----------+ 
     1 |1519.4221 
      |43114.959 
      |  154 
-----------+-----------+ 
     2 | 135506.67 
      | 74360.816 
      |  179 
-----------+-----------+ 
     3 | 396712.16 
      | 69715.49 
      |  161 
-----------+-----------+ 
     4 | 669065.69 
      | 111102.02 
      |  182 
-----------+-----------+ 
     5 | 2552620.5 
      | 3872350.9 
      |  274 
-----------+-----------+ 
    Total | 957419.29 
      | 2323329.8 
      |  950

爲什麼我在每個五分位數中得到不同數量的家庭？特別是在最後五分位？

我能想出的唯一解釋是當Stata構建了具有xtile的五分位數時，它從計算中排除了那些顯示NetWealth重複值的觀察值。在諮詢Stata material時，我也有這種印象。

您認爲如何？

來源

2016-12-02 Fuca26

只要你不給出一個獨立的例子，你的問題是不完全可重複的，但總的來說，這裏沒有難題。

尋求這種區別的人往往會遇到一個小問題，因爲他們的觀察次數不是他們想要的基於分位數的區間數的倍數（意思是確切的倍數），但在您的情況下，

. di 154 + 179 + 161 + 182 + 274 
950

表明你有950周的觀察，這是5×190

的更大的交易 - 在這裏，幾乎總是 - 源自塔塔的規則，在不同的觀測相同的值必須被分配到同樣的bin。所以，關係可能是這裏的問題。

您可能有三種可能的解決方案。只有一個涉及直接編碼。

住在裏面。
做別的事。例如，你爲什麼要這樣做？爲什麼不使用原始數據？
嘗試不同的邊界條件。要做到這一點，只需取消該變量並將該版本刪除即可。然後邊界上的值將跳轉不同。

在我看來，將隨機噪聲添加到單獨的關係是完全不可能的。這是不可重複的（除了平凡的使用相同的程序和相同的設置），並且在相同的觀察值對其他變量的影響方面會有不同的含義。

下面是一個例子，其中＃3沒有幫助，但它有時做：

. sysuse auto, clear 
(1978 Automobile Data) 

. xtile bin5 = mpg, nq(5) 

. gen negmpg = -mpg 

. xtile bin5_2 = negmpg, nq(5) 

. tab bin5 

5 quantiles | 
    of mpg |  Freq.  Percent  Cum. 
------------+----------------------------------- 
      1 |   18  24.32  24.32 
      2 |   17  22.97  47.30 
      3 |   13  17.57  64.86 
      4 |   12  16.22  81.08 
      5 |   14  18.92  100.00 
------------+----------------------------------- 
     Total |   74  100.00 

. tab bin5_2 

5 quantiles | 
    of negmpg |  Freq.  Percent  Cum. 
------------+----------------------------------- 
      1 |   19  25.68  25.68 
      2 |   12  16.22  41.89 
      3 |   16  21.62  63.51 
      4 |   13  17.57  81.08 
      5 |   14  18.92  100.00 
------------+----------------------------------- 
     Total |   74  100.00

也見一些討論this paper

第4節中我無論如何看不出一絲的文檔是xtile在會以您暗示的方式忽略觀察結果。你沒有給出明確的引用來支持這一點。除非有指示，否則排除任何非缺失值是不正確的。

我不直接在這裏評論pweight的使用，除了使用pweight s可能是一個複雜的因素在這裏。

來源

2016-12-02 13:18:36

我意識到我在這裏並不清楚，當我說：「......當Stata用xtile構造五分位數時，它從計算中排除了那些顯示NetWealth重複值的觀察值。」我其實是指你用粗體字寫的。 – Fuca26

如果你的意思是，那很好，但**排除**是完全錯誤的，因爲發生了什麼。所有這些值都包含在計算和結果中。 –

也謝謝你的參考，非常清楚！謝謝！ – Fuca26

昆泰不同數量的觀察

回答

相關問題