SAS：單個觀察的AVG（）

我試圖獲取某個變量列表的模式。當模式不唯一時，我想返回模式的平均值，以便子查詢獲取模式（在較大的查詢中）不返回兩個值。但是，如果模式是唯一的，則由於某種原因，平均查詢返回缺失值。SAS：單個觀察的AVG（）

我有下面的示例數據：

data have; 
input betprice; 
datalines; 
    1.05 
    1.05 
    1.05 
    6 
    run; 
    PROC PRINT; RUN; 

proc sql; 
select avg(betprice) 
    from 
    (select betprice, count(*) as count_betprice from have group by betprice) 
    having count_betprice = max(count_betprice); 
quit;

如果我添加一些更多的觀測到betprice場，這樣的模式不是唯一的，我得到返回的平均值。

data have; 
input betprice; 
datalines; 
    1.05 
    1.05 
    1.05 
    6 
    6 
    6 

run; 
PROC PRINT; RUN;

如何更改此查詢，以便始終返回兩個最常見值的模式或平均值。

感謝您的任何幫助。

來源

2013-08-22 user2146441

爲什麼你想要的平均模式？從統計角度來看，這根本不是一個有趣的術語。 MODE真正有用的唯一原因是看到分配。如果您採用均值模式，則MODE = 4不會告訴您是單項模式爲4的二項分佈，還是3和4和5全部相等的高原，或者實際上是1和7的偏斜。 – Joe

我認爲這很有趣！我想根據他們在前10次或20次投注中選擇的投注分類進行分類。 Betprice不是一個連續變量，只有四個離散值：6,2,1.83和1.05。我如何根據他們的前10次投注對玩家進行排名？如果我取平均值，它不是很好，因爲值6距離值1.05太遠了。如果一名球員在1.05時有7次投注，在6次時有三次投注，我認爲他應該被評爲1.05。如果我拿平均水平，差不多是3：平均水平高於以2的價格進行10次投注的人。 – user2146441

雖然我不認爲模式本身的意思很有趣。如果它是一個平行線，那麼你對它的處理取決於你的分析，但我不明白這個平均值是如何有用的？既然你有四個離散值，我想很明顯他們的「模式均值」是一對特定對的平均值/模式，但是有人投注1.05和6的頻率類似於頻繁投注3.55的人（這是可能的）嗎？看起來不像我。 – Joe

這非常困難，在與SAS合作12年之後，我記不清使用HAVING而沒有使用GROUP BY，我猜測它會產生意想不到的結果。

因此，對於單個查詢，我的解決方案不是很好，因爲它進行了兩次分組。

一個查詢版本：

proc sql; 
select avg(betprice) 
    from (select 
        betprice 
       , count(*) as count_betprice 
       from work.have 
       group by betprice) /* first summary */ 
    where count_betprice 
       = select max(count_betprice) 
     from 
      (select 
        betprice 
       , count(*) as count_betprice 
       from work.have 
       group by betprice) /* same summary here */; 
quit;

使用中間表簡化的位（或查看，如果你需要），而不是相同的子查詢：

proc sql; 
create table work.freq_sum 
     as select 
       betprice 
       , count(*) as count_betprice 
       from work.have 
       group by betprice 
; 
select avg(betprice) 
    from work.freq_sum 
    where count_betprice 
       = select max(count_betprice) from work.freq_sum; 
quit;

請注意，你可以計算統計像MODE和MEDIAN通過PROC MEANS：

proc means data=have n mean mode median; 
var betprice; 
run;

來源

2013-08-22 12:57:56 vasja

完整「有」表中的每一行都有一個時間戳，一個用戶名，一個betprice和一些其他列。每個用戶名有多個條目。較大的查詢將提取每個用戶名和玩家在1日至20日的平均betprice以及其他一些統計數據。您建議的第一個單一查詢版本適用於此！ – user2146441

PROC UNIVARIATE更適合模式，因爲它會返回多種模式。我也建議不要使用單個查詢版本（因爲vasja似乎也是這樣），並不是因爲它有什麼問題，而是更容易閱讀和維護第二個版本（尤其是如果您將第一部分視爲一個視圖）。寫大複雜的查詢並不代表良好的編程習慣，除非您正在嘗試'工作安全性'。 – Joe

因爲我正在從一個賭桌上玩家名字，賭價，賭注金額等每一行，然後創建一個聚合表與每個球員獨特的行，我不會立即看到分裂這個值進入一系列視圖，中間數據包和臨時表。使用'subselects'填充每個玩家行的列數據似乎更加簡單。也許我在這方面走錯了路。。 – user2146441

首先，請注意，當您使用having子句時，外部查詢中沒有group by語句。哪個不好。

這裏是一個有效的解決方案：

proc sql; 
    create view WORK.V_BETPRICE_FREQ as 
    select betprice, count(*) as count_betprice 
    from HAVE 
    group by betprice 
    ; 

    select avg(betprice) as final_betprice 
    from WORK.V_BETPRICE_FREQ 
    where count_betprice = (select max(count_betprice) from WORK.V_BETPRICE_FREQ) 
    ; 
quit;

我用了一個觀點在這裏以防止代碼重複。如果在視圖中的查詢是一個非常繁重的CPU操作，您可能希望用物理表替換它。

編輯反饋：我相信你，因爲你想要的外部查詢與查詢掙扎：
1.過濾後在所有記錄執行聚合功能。
2.在過濾器中使用聚合函數。
如果沒有按語句提供語句，則無法在第二個語句中執行第一個語句，而您無法執行第二個語句。

因此最終的結果是，我在外部查詢中保留了第一個，而在另一個子查詢中執行了第二個查詢。

來源

2013-08-22 12:56:03 mvherweg

你在SAS，爲什麼不讓SAS計算吃了統計數據，因爲這就是它的優點...

ods output modes=want; 
proc univariate data=have modes; 
var betprice; 
run; 
ods output close; 

proc means data=want; 
var mode; 
output out=final(keep=betprice) mean=betprice; 
run;

這不會花太長的時間，對另一位程序員來說，你所做的事情要清楚得多，而且編碼也很容易。如果你沒有采取模式的意思，你可以一步到位。

來源

2013-08-22 14:00:43 Joe

太好了，不知道UNIVARIATE可以產生多個MODE。比較選擇較小的MEANS？？ – vasja

單變量和均值默認情況下選擇最小的一個。如果您要求它（PROC UNIVARIATE語句中的模式選項），那麼單變量也可以產生多種方式，但它必須與ODS OUTPUT一起輸出，而不是輸出語句。 – Joe

SAS：單個觀察的AVG（）

回答

相關問題