我在數據挖掘領域的初學者,要羣集我的電影數據集中尋找流派組。在我的數據集中,我有26種不同類型的86部電影。我想使用羣集將我的電影分組爲幾個流派,而不是26個。因此,例如,運行一些聚類算法後,我將留下4個集羣或最適合我的數據集的任何小計。 我已經定義了我的數據集如下 M1 {G1,G2,... G26} M2 {G1,G2,... G26} 其中每個流派G1,..., G26可以存儲0或1的值,0不存在,0存在。 現在我的下一個步驟是運行的k-means對集羣,我想使用如一個很好的距離函數Pearson相關係數。聚類流派
我正在使用MATLAB進行實驗。 我想這樣做使用K = 3,4,5,6 k-均值另外我跑Hierarchial聚類。
我不確定如何確定哪個聚類結果更好。如何檢查?由於我是初學者,我不知道如何在MATLAB中繪製二進制特徵的集羣。此外,我DONOT有知識如何使用Pearson相關係數爲K-意味着距離度量。請幫忙。