k-means

    1熱度

    1回答

    我想要使用緯度/經度作爲X/Y軸和DaysUntilDueDate作爲我的Z軸羣集數據。我還想保留索引列('PM'),以便以後可以使用此聚類分析創建計劃。我發現here的教程非常棒,但我不知道它是否考慮了Z軸,而且我的四周沒有導致任何錯誤。我想在代碼中重要的一點是iloc位此行的參數: kmeans_model = KMeans(n_clusters=k, random_state=1).fit(

    3熱度

    1回答

    我在Python中使用了gensim包來加載預先訓練好的Google word2vec數據集。然後我想用k-means在我的單詞向量上找到有意義的集羣,並找到每個集羣的代表性單詞。我正在考慮使用相應向量與集羣質心最接近的詞來表示該集羣,但不知道這是否是一個好主意,因爲我的實驗沒有給出好的結果。 我的示例代碼是象下面這樣: import gensim import numpy as np imp

    2熱度

    1回答

    我有一個38套公寓的數據集,並在上午,下午和晚上用電。我正嘗試使用scikit-learn的k-Means實現將此數據集羣化,並獲得一些有趣的結果。 首先聚類結果: 這一切都非常好,並用4個簇我顯然得到關聯到每個公寓4個標籤 - 0,1,2和3。使用KMeans方法的random_state參數,我可以修復質心隨機初始化的種子,因此我始終可以得到歸屬於相同公寓的相同標籤。 然而,由於這個特定的情況

    1熱度

    1回答

    我是粒子羣優化的新手。我閱讀了關於基於PSO和K-means的聚類的研究論文,但是我沒有找到相同的工作示例。任何形式的幫助都非常感謝。提前致謝! 我想在R中使用PSO和K-means進行文本文檔聚類。我的基本思想是,首先PSO會給我聚類質心的優化值,然後我必須使用羣集質心的優化值PSO作爲k-均值的初始聚類質心以獲得文檔簇。 下面是描述我迄今爲止所做的工作的代碼! #Import library

    0熱度

    1回答

    我有一大堆由硬件設計模擬生成的錯誤消息。這些消息中只有極少的語法或語言概念。沒有明確定義的語法。這些消息可能包含數學表達式(在模擬中引發錯誤),發生錯誤的時間,以及隨機符號(如@,:,[,],(,)(取決於設計作者感覺如何顯示!)。消息中不需要空格,並且不需要空格。 我想對這組消息應用一個算法,可以將這些消息歸入包含類似消息的存儲桶中,以便我可以輕鬆識別出現的錯誤類型。 我讀了關於使用Levens

    2熱度

    1回答

    我有一個字母和不同顏色的形狀的圖像。我需要對它們執行kmeans聚類,然後提供兩個不同的圖像,一個只重新生成形狀,另一個只重新生成Letter信號。 這是一個示例原始圖像和我需要實現的。 Original Image Shape color regenerated 並且類似地,另一個只用白色R. 我已經成功地進行k均值聚類算法,如何訪問標籤和集羣IDX再生預期的效果?有人可以請示例代碼說明。這是代

    1熱度

    2回答

    我想要做的事情的簡單例子: 比方說,我有3個數據點A,B和C.我運行KMeans聚類在這個數據上,得到2個簇[(A,B),(C)]。然後我對這個數據運行MeanShift集羣並獲得2個集羣[(A),(B,C)]。很顯然,這兩種聚類方法以不同的方式聚集數據。我希望能夠量化這種差異。換句話說,我可以使用什麼度量來確定從兩種算法獲得的兩個羣集組之間的相似性/重疊百分比?下面是可能被給予分數的範圍: 10

    0熱度

    2回答

    我有一個包含5列的數據框。我正在嘗試爲三個變量X,Y和Z聚類點,並找出kmeans聚類的損失函數。下面的代碼會照顧到這一點,但是如果我使用160,000行對我的真實數據框運行此操作,它需要永遠!我認爲它可以做得更快。 PS:看來KMeans模塊在sklearn不提供損失函數,這就是爲什麼我寫我自己的代碼。 from sklearn.cluster import KMeans import num

    0熱度

    1回答

    在Tensorflow的K均值的實施例的代碼, 當使用函數「tf.expand_dims」在point_expanded(插入尺寸爲1到張量的形狀。),centroids_expanded 在計算tf.reduce_sum之前。 爲什麼這些在第二個參數中有不同的索引(0,1)? import numpy as np import tensorflow as tf points_n = 200

    0熱度

    2回答

    在做K意味着適合某些具有3個集羣的向量時,我可以獲取輸入數據的標籤。 KMeans.cluster_centers_返回中心的座標,所以不應該有一些相應的向量?我怎樣才能找到這些集羣質心的價值?