我正在嘗試查找按羣組羣集單變量數據的方法。例如,在下面的數據中,每個分組有兩個失敗代碼(a和b)和6個數據點。在圖中可以看到,對於每個故障代碼,故障時間有2個不同的集羣。手動這並不壞,但我無法弄清楚如何用更大的數據集(約100K行和約30個代碼)完成此操作。我希望最終的結果能夠爲每個集羣提供medoid和該集羣中的代碼數量。R按羣組的單變量羣集
library(ggplot2)
failure <- rep(c("a","b"),each=6)
ttf <- c(1,1.5,2,5,5.5,6,8,8.5,9,14,14.5,15)
data <- data.frame(failure,ttf)
qplot(failure, ttf)
results <- data.frame(failure = c("a","b"), m1 = c(1.5,8.5), m2 = c(5.5,14.5))
我想對於最終的結果給我像下表。
failure m1 m1count m2 m2count
a 1.5 3 5.5 3
b 8.5 3 14.5 3
每個故障碼只有2個羣集嗎?你想爲每個失敗代碼創建集羣嗎?我會檢查'kmeans()'或一個k-最近的鄰居函數。脫字符,類和FNN庫都有一個實現。 – emilliman5
感謝您的幫助,我會假設每個失敗代碼只有2個集羣,並且爲了簡單起見,將結果基於該假設。我會研究kmeans,看看我能想出什麼。我被絆倒的部分是基於組執行羣集,然後將結果輸入到數據幀中。 – nathanbeagle