2012-11-09 46 views
2

我有一個數據集,其中約200個要素的實例,其中約11個是數值(整數),其餘爲二進制(1/0),這些要素可能相互關聯,它們是不同的概率分佈,混合(二進制和數字)向量的相似度得分

它已經有一段時間,我一直有一個良好的相似性得分,其適用於混合的載體,並考慮到了功能之間的相關性,

你知道這種相似性分數?

感謝, 阿里安

回答

2

的多種類型的距離測量,EuclideanManhattan,等會提供根據數據集不同級別的精確度。最好閱讀有關您的數據擬合方法的論文,並查看他們使用的啓發式方法。更不用說有些方法只需要相應比例的同質數據。 Here是一篇論文,介紹了您可能會覺得有吸引力的一整套措施。

與往常一樣,測試和交叉驗證以查看是否真的存在混合要素類型的影響。

+0

你是否知道任何統計軟件包與相似度得分都很好,並且有很多這樣的統計軟件包? –

+0

如果你有權訪問這樣昂貴的程序,Matlab有很多措施。否則,我相信谷歌會是你的朋友。 – enjoylife

3

在你的情況下,相似性函數在很大程度上依賴於輸入數據模式。您可以從保存訓練數據之間的距離關係的一對相似/不相似點的給定集合 的數據的輸入空間學習距離度量獲益。

Here是一個很好的調查報告。

+0

其實我爲什麼要定義一個相似性度量是因爲我想爲降採樣做羣集!所以無法從數據中學習 –

+1

您不需要標記數據即可瞭解距離度量。歧管學習和內核方法都是這些方法的例子。 – greeness