0
中的措施,我想找到相似(相異)以下的數據點之間:最好similaity(異性)多維性分類向量
我的分類數據設置如下:{藝術,科學,Math.s,醫療,物理,化學,工程..等}例如15或20類。
,所以我想這些庫,每個庫一行的數據(點)表示行向量中找到SIM(DIS),這裏
Books attributes
libraries total-books Art science Math. chemistry
lib1 1000 50 200 0 3
lib2 500 12 0 0 44
lib3 etc..
表表示每個庫中發現圖書的數量,當我們發現,那麼它的頻率百分比總書中發現基於頻率百分比,例如 我不認爲零類別中的下列載體類別爲每個庫的重新佈置表示,
庫1 = {科學,藝術,化學,...} 庫2 = {化學,藝術,...} 等等
如何找到LIB1和LIB2和等之間的相似性/不相似...
任何建議,請。
感謝Anony-Mousse,我在每行中只發現每個類別的頻率,例如lib1中的藝術書是50,在lib1中的oks是1000,然後[30/1000] * 100%會給我價值,我重複所有庫的剩餘類別和上述過程的所有過程,然後我安排每個庫中每個類別的順序,因此每個libi ,I = 1..n會給非零類別的向量,我的過程是否考慮正常化,並且請你有你的優秀說明的解釋,你會幫助我更多的,再次感謝 –
我要求,因爲你的專家在數據挖掘,聚類分析中,這是我需要從你的筆記,再次感謝 –
爲什麼你認爲重新排序使得計算機更容易處理?嘗試保持訂單不變,並**看看我建議的方法**。他們在一些數據集上運行良好,但我懷疑你的方法是有用的。 –