哪些統計信息在SAS，proc摘要中計算得更快？

想象一下，您擁有一個擁有15億行（使用DB2-Blu以列爲基礎創建的表）的表。

您正在使用SAS，並且您將通過Proc Summary使用Proc Summary進行一些統計，如最小/最大/平均值，標準偏差值和百分位-10，百分位數-90。例如，您有30.000個對等組，並且每個對等組中有50,000個值（總計15億個值）。

另一種情況下，您有300萬個對等組，同時每個對等組中有50個值。所以你總共有15億的價值。

如果您有較少的對等組，但每個對等組中的值更多，它會更快嗎？或者在更多對等組中使用更快，但每個對等組的數值會更少。

我可以測試第一個案例（每個對等組30,000個對等組和50.000個值），大約需要16分鐘。但我無法測試第二種情況。

如果我在每個對等組中有300萬個對等組和50個值，那麼您可以爲運行時編寫一個近似預測嗎？

該問題的另一個維度。如果我使用Proc SQL來代替這些統計數據，會更快嗎？

示例代碼如下：

proc summary data = table_blu missing chartype; 
    class var1 var2; /* Var1 and var2 are toghether peer-group */ 
    var values; 

    output out = stattable(rename = (_type_ = type) drop = _freq_) 
    n=n min=min max=max mean=mean std=std q1=q1 q3=q3 p10=p10 p90=p90 p95=p95 
; 
run;

來源

2017-04-20 user3714330

是對數據由每組排序或對每個組的索引？你在使用「CLASS」還是「BY」語句？ – DomPazz

@DomPazz我們的系統管理員表示在DB2-Blu（基於列）中不需要建立索引，它本身具有某種智能解決方案。它確實比索引的基於行的錶快兩倍。 – user3714330

@DomPazz我在'Proc Summary'中使用'Class' – user3714330

所以有一些事情要考慮這裏。

性能方面的第一點和很可能最大的問題是將數據從DB2轉移到SAS。（我假設這不是SAS中的數據庫實例 - 如果是這樣的話，請糾正我）。這是一個很大的桌子，在線上移動需要時間。因此，如果您可以使用SQL語句計算DB2內的所有這些統計信息，那可能是您最快的選擇。

因此，假設您已經下載了表格到SAS服務器：

由CLASS變量名稱排序表將遠遠快於未排序的表來處理。如果SAS知道該表已排序，則不必掃描表中的記錄以進入組，則可以執行塊讀取而不是隨機IO。

如果表未分類，則組數越大，則需要進行更多的表掃描。

問題是，在未排序的過程中，從HD獲取數據到CPU的速度將是至關重要的。

從那裏，你進入內存和CPU問題。 PROC概要是多線程的，SAS將一次讀取N個組。如果組大小適合分配給該線程的內存，則不會有問題。如果組的大小太大，那麼SAS將不得不頁面。

我按比例縮小的問題至15M行例如：

%let grps=3000; 
%let pergrp=5000;

UNSORTED：

NOTE: There were 15000000 observations read from the data set 
     WORK.TEST. 
NOTE: The data set WORK.SUMMARY has 3001 observations and 9 
     variables. 
NOTE: PROCEDURE SUMMARY used (Total process time): 
     real time   20.88 seconds 
     cpu time   31.71 seconds

排序方法：

NOTE: There were 15000000 observations read from the data set 
     WORK.TEST. 
NOTE: The data set WORK.SUMMARY has 3001 observations and 9 
     variables. 
NOTE: PROCEDURE SUMMARY used (Total process time): 
     real time   5.44 seconds 
     cpu time   11.26 seconds

========== ===================

%let grps=300000; 
%let pergrp=50;

UNSORTED：

NOTE: There were 15000000 observations read from the data set 
     WORK.TEST. 
NOTE: The data set WORK.SUMMARY has 300001 observations and 9 
     variables. 
NOTE: PROCEDURE SUMMARY used (Total process time): 
     real time   19.26 seconds 
     cpu time   41.35 seconds

排序方式：

NOTE: There were 15000000 observations read from the data set 
     WORK.TEST. 
NOTE: The data set WORK.SUMMARY has 300001 observations and 9 
     variables. 
NOTE: PROCEDURE SUMMARY used (Total process time): 
     real time   5.43 seconds 
     cpu time   10.09 seconds

我跑這幾個時間和運行時間是相似的。排序時間大致相等，方式更快。

每組的組數越少/分組數越少未分類的速度越快，但看看總CPU使用率，它會更高。我的筆記本電腦的SSD速度非常快，所以IO可能不是限制因素 - HD能夠跟上多核CPU的需求。在HD較慢的系統上，總運行時間可能不同。

最後，它太依賴於數據的結構以及服務器和數據庫的細節。

來源

2017-04-20 13:16:53 DomPazz

不是一個理論的答案，但仍然具有現實意義IMO ......

爲了加快您的proc summary關於大表格的/ groupinternal選項添加到您的類的語句。當然，假設你不想在分組之前格式化變量。

e.g：

class age/groupinternal;

這告訴SAS，它並不需要的格式值計算什麼類組值到之前提出申請。即使沒有明確指定，每個值都會應用一個格式。這對小桌子沒有太大的影響，但是在大桌子上可以。

從這個簡單的測試，它減少了從60秒的時間我的機器上爲40秒（YMMV）：

data test; 
    set sashelp.class; 
    do i = 1 to 10000000; 
    output; 
    end; 
run; 

proc summary data=test noprint nway missing; 
    class age/groupinternal; 
    var height; 
    output out=smry mean=; 
run;

來源

2017-04-20 17:55:13

好的提示。有趣的是，在我的3000x5000未排序表的例子中，這減慢了處理速度。總CPU使用率較低，但總時間較長。努力理解原因。 – DomPazz

哪些統計信息在SAS，proc摘要中計算得更快？

回答

相關問題