1

無監督降維算法將一個矩陣NxC1作爲輸入,其中N是輸入向量的數量,C1是每個向量的分量數量(向量的維數)。結果,它返回一個新的矩陣NxC2(C2 < C1),其中每個矢量的分量數量較少。使用無監督降維的模糊聚類

模糊聚類算法將一個矩陣N * C1作爲輸入,其中N又是輸入向量的數量,C1是每個向量的分量數量。結果,它返回一個新的矩陣NxC2(通常低於C1的C2),其中每個向量的每個分量都表示向量屬於相應聚類的程度。

我注意到兩類算法的輸入和輸出在結構上是相同的,只有結果的解釋發生了變化。而且,在沒有模糊聚類實現scikit學習,所以以下問題:

是否有意義使用降維算法進行模糊聚類? 例如,將FeatureAgglomerationTruncatedSVD應用於根據從文本數據中提取的TF-IDF矢量構建的數據集並將結果解釋爲模糊聚類是否無效?

回答

2

在某種意義上,當然。這種情況取決於你想如何使用下游結果。

考慮SVD截斷或排除主要組件。我們已經投射到一個新的方差保持空間中,對新的歧管結構幾乎沒有其他限制。原始數據點的新座標表示可能對某些元素具有較大的負數,這有點奇怪。但是可以毫不費力地移動和重新調整數據。

然後可以將每個維度解釋爲集羣成員資格權重。但考慮模糊聚類的一個常見用途,即生成一個硬聚類。注意模糊聚類權重有多容易(例如,只取最大值)。考慮在新的尺寸減小的空間中的一組點,例如< 0,0,1>,< 0,1,0>,< 0,100,101>,< 5,100,99>。如果閾值化,模糊聚類會給出類似於{p1,p2},{p3,p4}的東西,但是如果我們在這裏取最大值(即將尺寸減少的軸作爲成員,則可以得到{p1,p3},{p2,p4例如,當k = 2時,當然,可以使用比max更好的算法來導出硬成員資格(比如說通過查看配對距離,這對我的例子來說很有用);這樣的算法被稱爲聚類算法當然,不同的降維算法可能對此更好或更差(例如,重點在於保存數據點之間的距離而非差異的MDS更自然地類似羣集)但是從根本上來說,許多維度降低算法隱含地保留關於數據所在的基本流形的數據,而模糊聚類矢量僅保存關於數據點之間關係的信息(可能或可能存在)可能不會隱式編碼該其他信息)。

總的來說,目的有點不同。聚類旨在查找類似數據的組。特徵選擇和降維被設計成通過改變嵌入空間來減少數據的噪聲和/或冗餘。通常我們用後者來幫助前者。