對於初學者我知道我的問題類似於This(這是最接近我的問題,我發現),但同時有一些差異,因此我的新帖子。SAS最有效的方法來消除重複
我有一個標識符和聲明的數據庫。聲明被構造爲標識符+字母。 如果標識符是123456,則聲明將爲「123456A」,「123456B」等
我想爲每個標識符選擇一個觀察值,聲明是帶有最後一個字母的聲明,即當然,並不總是一樣的。
我認爲我可以做到這一點與一個進程進行排序,然後另外一個與nodupkey:
proc sort data=have out=have2;
by identifier declaration /descending;
run;
proc sort data=have2 out=want nodupkey;
by declaration;
run;
,但因爲我有一個比較重要的數據庫(數以千萬計的意見),我想知道什麼是最好的如果它是另一個更合適和最快的方法的感覺。 通常情況下,如果有可能在一個步驟。
謝謝
如果你有足夠的內存試試上面這可能會更快的鏈接喬的哈希解決方案。 – Reeza 2014-10-02 13:40:36
你有多少個不同的'identifier'值? – Joe 2014-10-03 18:48:51
我有幾百萬個不同的標識符。更確切地說,大多數標識符只有一個聲明,大約20%有兩個,1%左右有三個或更多。 – 2014-10-05 10:15:03