使用無監督降維的模糊聚類

無監督降維算法將一個矩陣NxC1作爲輸入，其中N是輸入向量的數量，C1是每個向量的分量數量（向量的維數）。結果，它返回一個新的矩陣NxC2（C2 < C1），其中每個矢量的分量數量較少。使用無監督降維的模糊聚類

模糊聚類算法將一個矩陣N * C1作爲輸入，其中N又是輸入向量的數量，C1是每個向量的分量數量。結果，它返回一個新的矩陣NxC2（通常低於C1的C2），其中每個向量的每個分量都表示向量屬於相應聚類的程度。

我注意到兩類算法的輸入和輸出在結構上是相同的，只有結果的解釋發生了變化。而且，在沒有模糊聚類實現scikit學習，所以以下問題：

是否有意義使用降維算法進行模糊聚類？例如，將FeatureAgglomeration或TruncatedSVD應用於根據從文本數據中提取的TF-IDF矢量構建的數據集並將結果解釋爲模糊聚類是否無效？

2015-10-13 Romain G

在某種意義上，當然。這種情況取決於你想如何使用下游結果。

考慮SVD截斷或排除主要組件。我們已經投射到一個新的方差保持空間中，對新的歧管結構幾乎沒有其他限制。原始數據點的新座標表示可能對某些元素具有較大的負數，這有點奇怪。但是可以毫不費力地移動和重新調整數據。

然後可以將每個維度解釋爲集羣成員資格權重。但考慮模糊聚類的一個常見用途，即生成一個硬聚類。注意模糊聚類權重有多容易（例如，只取最大值）。考慮在新的尺寸減小的空間中的一組點，例如< 0,0,1>，< 0,1,0>，< 0,100,101>，< 5,100,99>。如果閾值化，模糊聚類會給出類似於{p1，p2}，{p3，p4}的東西，但是如果我們在這裏取最大值（即將尺寸減少的軸作爲成員，則可以得到{p1，p3}，{p2，p4例如，當k = 2時，當然，可以使用比max更好的算法來導出硬成員資格（比如說通過查看配對距離，這對我的例子來說很有用）;這樣的算法被稱爲聚類算法當然，不同的降維算法可能對此更好或更差（例如，重點在於保存數據點之間的距離而非差異的MDS更自然地類似羣集）但是從根本上來說，許多維度降低算法隱含地保留關於數據所在的基本流形的數據，而模糊聚類矢量僅保存關於數據點之間關係的信息（可能或可能存在）可能不會隱式編碼該其他信息）。

總的來說，目的有點不同。聚類旨在查找類似數據的組。特徵選擇和降維被設計成通過改變嵌入空間來減少數據的噪聲和/或冗餘。通常我們用後者來幫助前者。

來源

2016-08-18 17:17:42 user3658307

使用無監督降維的模糊聚類

回答

相關問題