cluster-analysis

    0熱度

    1回答

    我正在使用DBSCAN對數據集執行聚類。我認爲這是因爲在plt.plot()中傳遞給markerfacecolor的顏色參數不是單個值。請讓我知道如果我在這裏錯了。我的功能是緯度,經度,speed_mph,speedlimit_mph,vehicle_id,driver_id。 這裏是我的集羣代碼 dbsc = DBSCAN(eps = .5, min_samples = 5).fit(df_co

    0熱度

    1回答

    我想了解輸入.csv文件上的K均值聚類,它由56376行和兩列組成,第一列代表id,第二列代表一組字/此數據的示例如下: ** 1。 1428951621做版必修來到米蘭2013年4月19日maynardmonday 16 1429163429室溫windeerlust sehun hyungluhan yessehun做甚至版必修 天今天** 用於處理這種情況的Scala代碼數據看起來像這樣 v

    0熱度

    1回答

    我正在使用carrot2的STC(後綴樹聚類)算法對一堆文檔進行聚類。默認情況下,算法形成的最大羣集數爲。有沒有辦法決定生成的集羣數量? 以下是調用STC羣集的代碼。 ProcessingResult byDomainClusters = controller.process(documents, null, STCClusteringAlgorithm.class); List<Cluster

    0熱度

    1回答

    我理解使用Ward方法作爲鄰近性度量的HAC(層次凝聚聚類)。但是一旦我這樣做,我該如何使用它來初始化k-means?我是否按照我已經計劃用於k-means的預定k獲取k個羣集?或者層次聚類是否也幫助我選擇k?

    -1熱度

    1回答

    我正在尋找一種算法來給出元組的第一個元素的最可能的2元組。 最有可能的是當兩個元素以前在一批中更經常見到的時候。 比方說,你有批次的無限流: BATCH 1: border color border-radius dispaly BATCH 2: width height left top color border BATCH 3: border bord

    -1熱度

    1回答

    我試圖找到kmeans函數創建的位置並從輸入數據集x中評估協方差矩陣。我想覆蓋它,並給它自己的協方差矩陣,因爲未修改的矩陣與負的特徵值作鬥爭。 另一個解決方法是找到一個函數,它使用修改後的協方差矩陣進行kmeans聚類作爲內置函數,但是我還沒有找到任何這樣的函數。 在此先感謝! 功能的問題: (stat:::kmeans)

    0熱度

    1回答

    我對歷史數據的分類變量執行了k模式聚類。我做了聚類,因爲我想看看數據落入了什麼樣的簇。現在我有了輸出,如果有新數據進來,有什麼方法可以預測它會落入的羣集。 一種方法可能是,因爲我有每行的數據和它所屬的集羣,我可以將它用作列車數據並進行監督式學習。但我想知道是否有任何可能的方法存在,我可以使用現有的輸出變量來預測(半監督學習) 我可能無法共享任何數據或輸出,因爲我工作一個客戶,但如何處理的任何方向將

    0熱度

    1回答

    所以這是我的問題。 我每天有2000股的回報數據,下面是它的小樣本 (s1到s8,第1天到第15天) 我會打電話給我的數據「df」。 > df[1:15,1:8] s1 s2 s3 s4 s5 s6 s7 s8 1 -0.026410 -0.001030 -0.0027660 0.0126500 -0.030110 0.001476 -0.008271 -0.00

    0熱度

    1回答

    有沒有辦法將包含3D點對(或其索引號)的數據集拆分爲連接的集羣?也就是說,如果兩個對(a,b)和(c,d)共享一個公共點(即a = c,b = c,a = d或b = d),或者如果存在一個或多個其他對的鏈,每一對都與前一個共同點,從一對到另一對。 例如,對列表: [[1,2],[2,3],[4,5],[6,7],[7,8],[9,4],[8,5]] 將被分組如下: [[1,2],[2,3]]

    -1熱度

    1回答

    所以我使用高爾距離做出一些集羣,但我一直在試圖尋找一種具體的方法來計算變量的權重,我還沒有發現有用的東西。 在一些示例中,它們使用1和4之間的值,並且在其他示例中它們使用0至150或更多的值,所以是否存在限制?或者一個實際的方法來計算它們? 謝謝。