我試圖實現質量閾值聚類算法。 (從here截取)的它的概要如下:質量閾值聚類算法的高效數據結構
- 初始化允許簇閾值距離和最小羣集大小
- 構建爲通過包括最近點的每個數據點處的候選聚類,下最近,依此類推,直到集羣的距離超過閾值
- 保存最點作爲第一個真正的集羣候選集羣,並從進一步考慮刪除所有點的集羣中
- 重複使用減少的組直到沒有更多的聚類可以形成具有最小聚類r大小
我一直在閱讀一些最近的鄰居搜索算法和空間分區數據結構,因爲它們似乎是我需要的東西,但我不能確定使用哪一個,或者如果我'米應該是在看別的東西。
我想爲了教育目的而自己實現數據結構,並且我需要一個能夠連續返回某個點的最近點的數據結構。然而,因爲我不知道我需要查詢的次數(即直到超過閾值),所以我不能使用k-最近鄰居算法。我一直在尋找四叉樹和k-d樹。另外,由於該算法不斷地建立新的候選集羣,因此使用使用緩存信息加速後續查詢(但也考慮到點刪除)的修改數據結構將是有趣的。
儘管迄今爲止我所提出的問題的反饋非常有用,但他們沒有真正回答過這些問題,所以我認爲最好不要接受任何問題。 – NordCoder