2016-07-26 26 views
0

如何確定哪些疾病聚集在一起?我有一個數據集與病人和他們的疾病。如果他們擁有它,則編碼爲HOHT = 1,如果他們沒有它,則編碼爲HOHT = 0。確定哪個疾病聚集在一起

下面是一個數據的例子。如何確定哪些疾病最常發生在對方身上,而無需撰寫大量的言論呢?目標是創建一些像維恩圖或顯示疾病重疊的樹狀圖。

Moya Hypothyroid Hyperthyroid Celiac 
    1  1   0    0 
    1  1   0    0  
    0  0   1    1 
    0  0   0    0 
    1  1   0    0 
    1  0   1    0 
    1  1   0    0 
    1  1   0    0 
    0  0   1    1 
    0  0   1    1 

回答

1

我能想到的最簡單的辦法是必須通過proc corr看看相關矩陣:

data diseases; 
input Moya Hypothyroid Hyperthyroid Celiac; 
cards; 
    1  1   0    0 
    1  1   0    0  
    0  0   1    1 
    0  0   0    0 
    1  1   0    0 
    1  0   1    0 
    1  1   0    0 
    1  1   0    0 
    0  0   1    1 
    0  0   1    1 
    ; 
run; 

proc corr data = diseases out = disease_corr; run; 

有各種其他的選擇,但我不知道這個問題是否是真的非常適合這個網站,因爲它非常廣泛,更關於統計而不是編程。如果遇到更具體的問題,可隨時提出另一個問題。