最好similaity（異性）多維性分類向量

中的措施，我想找到相似（相異）以下的數據點之間：最好similaity（異性）多維性分類向量

我的分類數據設置如下：{藝術，科學，Math.s，醫療，物理，化學，工程..等}例如15或20類。

，所以我想這些庫，每個庫一行的數據（點）表示行向量中找到SIM（DIS），這裏

          Books attributes 
libraries total-books Art  science Math.   chemistry 
lib1   1000  50   200  0    3 
lib2   500   12   0  0    44 
lib3 etc..

表表示每個庫中發現圖書的數量，當我們發現，那麼它的頻率百分比總書中發現基於頻率百分比，例如我不認爲零類別中的下列載體類別爲每個庫的重新佈置表示，

庫1 = {科學，藝術，化學，...} 庫2 = {化學，藝術，...} 等等

如何找到LIB1和LIB2和等之間的相似性/不相似...

任何建議，請。

來源

2016-02-17 Ray ben

如果按照圖書總數規範化。您可以將其餘列作爲直方圖。

那麼你可以嘗試任何基於分佈的距離：

直方圖相交距離
庫爾貝克-萊布勒發散
$ \卡^ 2 $距離
延森 - 香農分歧

來源

2016-02-18 08:44:56

感謝Anony-Mousse，我在每行中只發現每個類別的頻率，例如lib1中的藝術書是50，在lib1中的oks是1000，然後[30/1000] * 100％會給我價值，我重複所有庫的剩餘類別和上述過程的所有過程，然後我安排每個庫中每個類別的順序，因此每個libi ，I = 1..n會給非零類別的向量，我的過程是否考慮正常化，並且請你有你的優秀說明的解釋，你會幫助我更多的，再次感謝 –

我要求，因爲你的專家在數據挖掘，聚類分析中，這是我需要從你的筆記，再次感謝 –

爲什麼你認爲重新排序使得計算機更容易處理？嘗試保持訂單不變，並**看看我建議的方法**。他們在一些數據集上運行良好，但我懷疑你的方法是有用的。 –

最好similaity（異性）多維性分類向量

回答

相關問題