我有一組2D座標集(在每組中有100K-500K點的比例),我正在尋找測量1組相似度的最有效方法到另一個。我知道常用的東西:餘弦,Jaccard/Tanimoto等。但是我希望對任何快速/有效的測量相似性的建議,尤其是那些可以通過相似性進行聚類的測量。適用於多組2D座標的適當相似性度量
編輯1:圖像顯示我需要做什麼。我需要它們的形狀/ orientatoin到羣集中的所有紅色,藍色和綠色等
alt text http://img402.imageshack.us/img402/8121/curves.png
你可以進一步定義相似性嗎?根據我的理解,你有n組m個點(其中m的數量級爲100k)。你會用什麼標準來說任何2組相似?是否它們共享相同點的大部分子集(即,相同的x,y座標)或者兩組中的座標集緊密疊加(即描述幾何相似的2-d對象的不同座標)。 – awesomo 2010-01-20 18:30:35
謝謝,我更關注後者,即他們描述了類似的2D對象。讓我解釋一下我的用例,我有多個快速變化的散點圖,並希望通過相似性對它們進行聚類。 HTH和TIA – Mikos 2010-01-23 20:51:31
互相關會有幫助嗎?不過,我很困惑如何使其尺寸不變。我可以通過座標數量來標準化嗎? 任何想法的人? – Mikos 2010-01-26 17:01:07