混合（二進制和數字）向量的相似度得分

我有一個數據集，其中約200個要素的實例，其中約11個是數值（整數），其餘爲二進制（1/0），這些要素可能相互關聯，它們是不同的概率分佈，混合（二進制和數字）向量的相似度得分

它已經有一段時間，我一直有一個良好的相似性得分，其適用於混合的載體，並考慮到了功能之間的相關性，

你知道這種相似性分數？

感謝，阿里安

的多種類型的距離測量，Euclidean，Manhattan，等會提供根據數據集不同級別的精確度。最好閱讀有關您的數據擬合方法的論文，並查看他們使用的啓發式方法。更不用說有些方法只需要相應比例的同質數據。 Here是一篇論文，介紹了您可能會覺得有吸引力的一整套措施。

與往常一樣，測試和交叉驗證以查看是否真的存在混合要素類型的影響。

2012-11-09 23:33:25 enjoylife

你是否知道任何統計軟件包與相似度得分都很好，並且有很多這樣的統計軟件包？ –

如果你有權訪問這樣昂貴的程序，Matlab有很多措施。否則，我相信谷歌會是你的朋友。 – enjoylife

在你的情況下，相似性函數在很大程度上依賴於輸入數據模式。您可以從保存訓練數據之間的距離關係的一對相似/不相似點的給定集合的數據的輸入空間學習距離度量獲益。

Here是一個很好的調查報告。

2012-11-12 03:02:11 greeness

其實我爲什麼要定義一個相似性度量是因爲我想爲降採樣做羣集！所以無法從數據中學習 –

您不需要標記數據即可瞭解距離度量。歧管學習和內核方法都是這些方法的例子。 – greeness

回答