cluster-analysis

-1熱度

2回答

我正在使用K-Mode集羣來對分類數據進行集羣，但是當我用相同數量的集羣聚集數據時，它每次都返回不同的集羣大小我期待如果我使用相同的數據和相同數量的羣集運行它，羣集大小將始終是固定的我做錯了什麼？ library(klaR) mysample=read.csv("sample_to_cluster.csv") results1 <-kmodes(mysample[,2:ncol(mysam

0熱度

2回答

計算大熊貓數據框中kmeans的損失函數

我有一個包含5列的數據框。我正在嘗試爲三個變量X,Y和Z聚類點，並找出kmeans聚類的損失函數。下面的代碼會照顧到這一點，但是如果我使用160,000行對我的真實數據框運行此操作，它需要永遠！我認爲它可以做得更快。 PS：看來KMeans模塊在sklearn不提供損失函數，這就是爲什麼我寫我自己的代碼。 from sklearn.cluster import KMeans import num

0熱度

1回答

將羣集摘要對象轉換爲數據幀

我試圖從使用clValid創建的R羣集驗證對象中提取驗證措施。當我創建對象和打印完整的總結，我用的這個下面 library(clValid) x <- clValid(iris[, -5], nClust=2:10, clMethods=c('hierarchical'), validation='internal') summary(x) 輸出是： Clustering

-2熱度

3回答

瞭解K均值聚類

我正在嘗試使用Matlab學習k均值聚類算法。問題是我找不到任何示例數據，它會使它更容易理解算法。但是，我在mathworks上找到了一個指定k-均值聚類的例子。但不幸的是，我無法忍受它。我試圖理解這個簡單的數據集，我在Stack-overflow上找到。請，我需要一個關於k-means聚類的基本示例，如果我在任何軟件（即matlab）上實現它，我將確保我正確應用它。最後，例如UCI上的所有

1熱度

1回答

我可以使用k-means來聚類非完整圖嗎？

我想通過使用k-means聚類算法聚類連接無向圖（不是一個完整的圖）。我只看到k-means用於完整的圖表，但我不確定是否有另一種方式可以將它應用於非完整圖形中。那麼，有沒有人知道這件事？而且，如果k-means不能應用於連通的無向圖，那麼哪種算法對聚類這種圖是有好處的？在此先感謝！

0熱度

1回答

使用hclust加權觀測頻率聚類R

我有一個500K觀測大型矩陣使用層次聚類進行聚類。由於尺寸較大，我沒有計算能力來計算距離矩陣。爲了克服這個問題，我選擇聚合我的矩陣，合併那些相同的觀測值，以便將我的矩陣約化爲10K個觀測值。我有這個聚合矩陣中每一行的頻率。我現在需要將這個頻率作爲分層聚類中的權重。該數據是500K觀測的數值和分類變量的混合，因此我使用雛菊包計算了我的聚合數據集的高爾異質性。我想在聚合數據集的統計數據包中使用hc

1熱度

1回答

內存問題：使用Gower距離和k-medoids對R中的非常大的多比例數據進行聚類分析

我有一個非常大的數據框，名爲'data'，有350000行和138列，我想用於k - 類羣聚類。我使用從該頁面的代碼：http://dpmartin42.github.io/blogposts/r/cluster-mixed-types 這是我的代碼： packages <- c("dplyr", "ISLR", "cluster", "Rtsne", "ggplot2") if (leng

0熱度

1回答

Scikit的DBSCAN聚類算法中有噪聲的樣本是什麼？

如果我在相似度矩陣上應用Scikit的DBSCAN（http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html），我會得到一系列標籤。其中一些標籤是-1。文件稱他們爲噪音樣品。這些是什麼？他們都屬於一個集羣，還是他們都屬於他們自己的集羣，因爲他們很吵？謝謝

0熱度

1回答

時間序列層次聚類中的R逐列

我試圖使用tsclust做一個時間序列聚類和我的數據集是這樣的：我有超過500與同每個8個觀測時間序列時間線。我申請tsclust給它，但後來時間簇但不繫列（如下）：後來我發現tsclust只能工作逐行（從www.rdocumentation.org/packages/dtwclust/versions。 /3.1.1/topics/tsclust）如果還有其他類似的功能可以用來完成聚類分析

0熱度

1回答

biopython集羣的簡單例子

我想了解如何使用biopython進行集羣基因的基本理解。可以說我有我想要分組的基因。如何將它們提供給算法，以及如何給出一個在哪個大小和數量的羣集將取決於的截點？我試過直接的方法： from Bio.Cluster import kcluster list1 = [ 'ADHAMKCAIROSURBANDJVUGLOBALIZATIONANDURBANFANTASIESPLA',