0

我在數據挖掘領域的初學者,要羣集我的電影數據集中尋找流派組。在我的數據集中,我有26種不同類型的86部電影。我想使用羣集將我的電影分組爲幾個流派,而不是26個。因此,例如,運行一些聚類算法後,我將留下4個集羣或最適合我的數據集的任何小計。 我已經定義了我的數據集如下 M1 {G1,G2,... G26} M2 {G1,G2,... G26} 其中每個流派G1,..., G26可以存儲0或1的值,0不存在,0存在。 現在我的下一個步驟是運行的k-means對集羣,我想使用如一個很好的距離函數Pearson相關係數。聚類流派

我正在使用MATLAB進行實驗。 我想這樣做使用K = 3,4,5,6 k-均值另外我跑Hierarchial聚類。

我不確定如何確定哪個聚類結果更好。如何檢查?由於我是初學者,我不知道如何在MATLAB中繪製二進制特徵的集羣。此外,我DONOT有知識如何使用Pearson相關係數爲K-意味着距離度量。請幫忙。

回答

0

評價相對於聚類最難的部分。

如果你知道你在找什麼,你不需要運行聚類分析。

因此,不存在聚類的客觀「真相」。你認爲集羣取決於你的個人需求,除非你將它們編碼成自定義算法,否則聚類算法可能會計算出完全不同的結果。例如,k-均值最小化方差。無論方差是否與您的集羣想法一致!

對於您的使用案例,最好的完整性檢查是每個現有的類型分配應該主要在其中一個集羣內。如果它到處都是,聚類不會按照您的流派概念進行聚類。

0

如果你沒有事實根據,那麼沒有什麼特別的方法可以衡量你的集羣是如何成功的。

所以,假設你沒有一個基本事實,你可以使用羣內相似性;這是在您測量每個羣集內節點的相似度時。因爲你不需要指定簇的數量,所以我會看看平均移位簇。