查找重複的個案，字符串變量，SPSS

作爲一本關於SPSS的小說，我正在努力尋找基於包含大約33,000個案例的數據集中的字符串變量的重複案例。查找重複的個案，字符串變量，SPSS

我有一個名爲「nr」的變量，應該是每個案例的唯一ID。但是，事實證明，某些情況下可能在輸入的「nr」中有兩個不同的值，唯一的區別是最後一個字符。導致一個案例顯示爲兩個單獨的行。

var「nr」的結構如下：XX-XXXXXXX-X或X-XXXXXXX-X，即2-7-1個字符或1-7-1個字符。

我想對所有具有「nr」等於除最後一個字符之外的其他情況的情況進行排序。

爲了說明，具有succesfull語法我希望能夠像這些案件進行從整個數據集進行排序：

20-4026988-2
20-4026988-3

5-4026992 -5
5-4026992-8

20-4027281-2
20-4027281-3

任何人有關於如何爲此創建語法的想法？會很感激任何輸入！

來源

2017-06-16 Klara

，我建議建立一個沒有那最後一個字符一個新的變量，然後尋找雙打：

* first creating some sample data to play with.  
data list list/ID (a15). 
begin data. 
20-4026988-2 
12-2345678-7 
20-4026988-3 
5-4026992-5 
5-4026992-8 
12-1234567-1 
20-4027281-2 
6-1234567-1 
20-4027281-3 
end data. 

* now creating the new variable and counting the occurrences of each shortened ID. 
string ShortID (a15). 
compute ShortID=char.substr(ID,1,char.rindex(ID,"-")). 
* also possible: compute ShortID=char.substr(ID,1,char.length(rtrim(ID))-1). 
aggregate out=* mode=add /break=ShortID/occurrences=n. 

* at this point you can filter based on the number or `occurrences` or sort them. 
sort cases by occurrences (d) ShortID.

來源

2017-06-16 10:19:51

刪除最後一個字符後，您可以使用數據>標識重複個案找到複本。它作爲這方面的一些有用的選擇。

來源

2017-06-17 12:06:12 JKP

查找重複的個案，字符串變量，SPSS

回答

相關問題