我試圖對一組數據運行聚類分析,但無法找到適當的見解。示例:我有100個資源(列)中的一組50個變量(行)。每種資源都有一些變量,如強度和其他弱點。我將強度標記爲1,弱點標記爲2.因爲每個資源可能只有10個變量作爲強度,而5個變量作爲弱點,所以其他被忽略的變量標記爲0。現在,我想找到分享共同優點和缺點的資源集羣。使用虛擬編碼變量在R中進行聚類分析
我已經使用層次聚類和k-means轉置數據集,以便資源在行中。 k-means圖顯示了不同羣集之間的過多重疊,因此僅使用層次聚類。我用+10和2(弱點)替換了1(強度)和-10,以查看集羣算法是否有不同的響應,但仍然沒有什麼幫助。
改進此方法的任何輸入和處理此方法的替代方法?
非常感謝!
謝謝。我必須自己識別和虛擬編碼爲1強度,2弱點,0-不識別。用-10代替+10和2,對層次聚類算法有什麼不同意義?此外,我如何降低維度(100資源),然後做羣集,因爲我想查看哪些資源在哪個羣集?爲了找到整個集羣的優勢和劣勢的負載,我已經使用了該集羣中變量的頻率的平均值。對於包含10個資源的集羣1的示例,如果在5個資源中注意到X強度,則加載爲0.5,是正確的嗎? – Ankur
你有沒有想過包含2個二進制變量?第一個變量:1-強度0 - 否則;第二個變量1-弱點0-否。兩個二進制變量都沒有標識會給你0。 – Ferdi
您可以減少PCA的尺寸並繪製縮小數據集的聚類。你只需要解釋變量。分配值+10和-10不會給你更好的結果。這隻會讓解釋變得更加困難。 – Ferdi