2016-02-17 14 views
0

中的措施,我想找到相似(相異)以下的數據點之間:最好similaity(異性)多維性分類向量

我的分類數據設置如下:{藝術,科學,Math.s,醫療,物理,化學,工程..等}例如15或20類。

,所以我想這些庫,每個庫一行的數據(點)表示行向量中找到SIM(DIS),這裏

          Books attributes 
libraries total-books Art  science Math.   chemistry 
lib1   1000  50   200  0    3 
lib2   500   12   0  0    44 
lib3 etc.. 

表表示每個庫中發現圖書的數量,當我們發現,那麼它的頻率百分比總書中發現基於頻率百分比,例如 我不認爲零類別中的下列載體類別爲每個庫的重新佈置表示,

庫1 = {科學,藝術,化學,...} 庫2 = {化學,藝術,...} 等等

如何找到LIB1和LIB2和等之間的相似性/不相似...

任何建議,請。

回答

1

如果按照圖書總數規範化。您可以將其餘列作爲直方圖

那麼你可以嘗試任何基於分佈的距離:

  • 直方圖相交距離
  • 庫爾貝克-萊布勒發散
  • $ \卡^ 2 $距離
  • 延森 - 香農分歧
+0

感謝Anony-Mousse,我在每行中只發現每個類別的頻率,例如lib1中的藝術書是50,在lib1中的oks是1000,然後[30/1000] * 100%會給我價值,我重複所有庫的剩餘類別和上述過程的所有過程,然後我安排每個庫中每個類別的順序,因此每個libi ,I = 1..n會給非零類別的向量,我的過程是否考慮正常化,並且請你有你的優秀說明的解釋,你會幫助我更多的,再次感謝 –

+0

我要求,因爲你的專家在數據挖掘,聚類分析中,這是我需要從你的筆記,再次感謝 –

+0

爲什麼你認爲重新排序使得計算機更容易處理?嘗試保持訂單不變,並**看看我建議的方法**。他們在一些數據集上運行良好,但我懷疑你的方法是有用的。 –