2013-04-17 101 views
-1

我想在R語言(編碼)中對我的數據(kmeans或hclust)進行聚類。我的數據是有序的,這意味着數據是李克特量表來衡量成本升級的原因(我有41個原因「變量」),從1到5縮放,其中1對5個主要影響沒有影響(我有約160觀察「誰排名原因」)...如何根據觀察結果聚類41任何幫助...我必須在聚類或任何幫助....之前將比例轉換爲百分比或z分數.... .. 我真的需要你的幫助!!這裏是要玩的數據https://docs.google.com/spreadsheet/ccc?key=0AlrR2eXjV8nXdGtLdlYzVk01cE96Rzg2NzRpbEZjUFE&usp=sharing集羣序數據

我想根據觀察中發生的相似性聚集變量(列)......我遵循statmethods.net/advstats/cluster.html中的代碼;但是我無法根據觀察中發生的相似性將變量(列)聚類在一起,並且我遵循mattpeeples.net/kmeans.html#help中的工作;但我不知道他爲什麼會將數據轉換爲百分比,然後將Z值標準化。

+1

你應該在確定你應該問你的問題之前澄清你的問題。如果這是一個統計問題,你應該去交叉驗證;如果它是一個編碼問題,你應該在這裏問,但是我看不出有關你編碼的問題。 – lokheart

回答

3

對於我而言,如果要根據變量中的相似性對行(觀察值)進行聚類,或者根據觀察中出現的相似性對變量(列)進行聚類,我不清楚嗎?

無論如何,看包cluster。這是所有R安裝附帶的推薦軟件包。

閱讀?daisy瞭解有序數據的細節。此度量標準可用於諸如agnes(用於分層聚類)或pam(用於關於中藥的分區,更穩健版本的-means)的函數中。

默認情況下,這些將聚集行/觀察值。如果要對列(變量)進行聚類,只需使用t()轉置數據對象。雖然這可能會混淆數據,取決於您如何存儲它們。

+0

感謝您的意見...我想根據觀察中發生的相似性將變量(列)聚類...我遵循但我無法根據觀察中發生的相似性對變量(列)進行聚類,並且我遵循中的工作,但是我沒有知道他爲什麼將數據轉換爲百分比,然後將Z值標準化。 – user2288739

0

將數據轉換爲百分比,稱爲數據標準化,這樣所有的變量都在範圍爲0 - 1

如果數據不歸你大值運行偏差的風險對尺寸