r-daisy

    2熱度

    2回答

    我試圖將250種物種的行爲特徵聚類爲生活史策略。性狀數據由數字和名義變量組成。我相對較新的R和聚類分析,但我相信找到這些點的距離的最佳選擇是在雛菊函數中使用gower相似度方法。 1)這是最好的方法嗎? 一旦我有了這些距離,我想找到重要的集羣。我研究過pvclust,並且喜歡它能夠給我集羣的力量。但是,我無法修改代碼以接受以前使用菊花進行的距離測量。我曾經失敗試圖按照這裏https://stats

    0熱度

    1回答

    我使用CRAN cluster包與R進行了k-medoid聚類分析。數據位於data.frame上,名爲df4和13111 obs。的二進制和序數值。在羣集之後,我將羣集結果應用到原始data.frame,顯示對應的羣集編號爲用戶標識。 如何根據羣集聚合二進制和序數選項? 例如,Gender變量具有從 「18-20」, 「21-24」, 「25-34」 男性/女性的值和範圍Age 「35-44」,

    0熱度

    1回答

    我有混合數據類型矩陣Data_string大小(947 x 41)包含數字和分類屬性。 我用Rstudio中的daisy()函數和Gower距離度量生成了一個距離矩陣(947 x 947)。 d <- daisy(Data_String, metric = "gower", stand = FALSE,type = list(symm = c("V1","V13") , asymm = c("V8

    3熱度

    1回答

    我想創建一個距離數據框的加權歐氏距離的距離矩陣。權重將在向量中定義。這裏有一個例子: library("cluster") a <- c(1,2,3,4,5) b <- c(5,4,3,2,1) c <- c(5,4,1,2,3) df <- data.frame(a,b,c) weighting <- c(1, 2, 3) dm <- as.matrix(daisy(df, m

    0熱度

    1回答

    我有一個數據集,每個數據集有12個變量,每個變量取值爲1到4,並被視爲序數。如果我不指定它們的類型,他們被視爲區間型 ​​3210 ,但如果我添加「類型=名單(ordratio = 1:12)」,類型變爲「T」和我確定代表什麼。如果它不代表序數,那麼我如何告訴菊花我輸入了序數據? > attributes(gower_dist) $class [1] "dissimilarity" "dist

    1熱度

    1回答

    我有一個R data frame哪些列是邏輯變量。 我需要做一些點產品所有可能的列對。 這來自文本語料庫分析,其中數據框指示哪些文檔(列)中存在哪些術語(行)。對於希望通過使用cluster包中的daisy包或lsa包中的cosine來計算每個可能的列對的距離的情況,存在常見的快速解決方案。 然而,我需要在所有列對之間使用某種點積來代替:目標是統計兩個文檔中同時存在多少個單詞(以及每個單元對)。