cluster-analysis

0熱度

1回答

我正在Python中構建k-means聚類模型。但是，我不確定如何保存羣集質心以及如何將它們用於未來的評分目的。當我稍後使用模型時，我總是希望分配相同的羣集ID。我會很感激，如果有人有一個明確的代碼來演示如何做到這一點。更新： @HannounYassir嗨，肯定，對不起，我應該以前也做過這樣的：想象一下，我的數據集的名字是data_clean和所有的變量都是標準化和前手清洗。 # def

3熱度

1回答

如何將KMeans模型性能與pyspark中的GaussianMixture和LDA模型性能進行比較？

我正在使用pyspark.ml.clustering庫來處理虹膜數據集，以便了解pyspark的基本原理併爲我創建一個聚類模板。我的火花版本是2.1.1，我有hadoop 2.7。我知道KMEANS和BisectingKMeans有computeCost（）方法，給出了基於輸入點及其相應的聚類中心之間的距離平方之和模型的性能。有沒有辦法將KMeans模型性能與虹膜數據集上的GaussianM

-1熱度

1回答

文本聚類

我已經得到了6個txt文件，其中填充了關於同一個域但是不同主題的問題（每個文件包含不同主題的問題），我的目標是聚集這些文件以便更好地查看相似性的科目。我已經刪除了停用詞，應用了詞幹化過程，應用了TF-IDF分數（我已經在數據框的形式下得到了它，結果是一個包含200個詞（列）和6個主題的數據框行）），但我米奮力知道如何應用k均值或DBSCAN的聚類方法，並最終如何評價我的聚類方法的性能.. 感謝提

-1熱度

2回答

如何在R中導入聚類的距離矩陣

我有一個包含200個模型的文本文件，與eachother相比，每個模型的分子距離相比較。它看起來像這樣： 1 2 1.2323 1 3 6.4862 1 4 4.4789 1 5 3.6476 . . 所有下降至200，其中第一號是第一個模型的方式，當這兩個模型相比，第二個數字是第二種模式，第三個數字對應的分子距離。我可以想出一種方法將它導入到R中，並創建一個很好的200x200矩

1熱度

1回答

dist（）的複雜性是什麼？

我在R中使用了dist函數，我想知道它的時間複雜度。我知道層次聚類的時間複雜度爲N^2*logN。層次聚類由R中的兩部分代碼組成。 > d <- dist(as.matrix(mtcars)) # find distance matrix > hc <- hclust(d) # apply hirarchical clustering > plot(hc) # plot th

1熱度

1回答

基於與LDA主題/功能集羣的相似性對文本進行分組

我正在研究包含論壇主題內容的數據庫（第一篇文章+回覆）。我想根據第一篇文章的主題對這些文檔進行分組/聚類。我計算了LDA/LSI主題並嘗試了K均值聚類，但我找不到有關如何從羣集獲取相關文本文檔的文檔。我只得到每個集羣的主要特徵，但我希望整個文檔或像每個集羣關聯的某個ID。我也嘗試過使用已知機器學習算法的分類器和推薦器，但是他們的結果並不是很有用。我也嘗試使用word2vec和doc2vec計算

0熱度

1回答

聚類和繪製單詞向量-python or R

所以我對python（和R）和單詞向量很陌生，一直在堅持如何完成我的下一步學習如何可視化。雖然我正在嘗試使用python，但我仍然願意將其應用於R。我將簡要解釋我得到了多少以及我想去哪裏。因此，我有一個用戶列表，收到與該用戶關聯的10部電影的列表。我已經設法得到清單，創建一個輸出csv文件，並匹配用戶屬性，如性別，年齡，位置等。我已經提取和創建了電影的屬性，以及類型和製作年份。但接下來，我試圖

-1熱度

2回答

使用proc fastclus（SAS）維護意見訂購的K-means聚類

我必須將我的人口聚類在8 clusters。我正在使用proc fastclus和k-means方法（以最小化羣集之間的差異）。觀察結果代表一個分數，所以即使在聚類過程之後，它們仍然是有序的。我注意到這樣： proc sort data=input.population; by score; run; proc fastclus data = input.population

-5熱度

1回答

k-means的網格搜索

我有一個線性方程來聚集一些查詢，我想調整超參數。現在我想知道我可以使用「網格搜索」進行「k-means」聚類嗎？或者它不能用於k-means？在我的工作中，我將數據分成80-20比例，80％的數據用於訓練模型，20％用於測試。 TNX

1熱度

1回答

使用scipy kmeans進行聚類分析

我想了解scipy.cluster.vq.kmeans。在2D空間中分佈有許多點，問題是將它們分組爲簇。這個問題引起了我的關注，讀取this question，我在想，scipy.cluster.vq.kmeans將要走。這是數據：使用下面的代碼，所述目的將是獲得每個25簇的中心點。 import numpy as np import matplotlib.pyplot as plt f