2015-09-12 39 views
0

我在3維空間中有大約2000萬個點(x,y,z)的大型數據集。我知道這些點是在密集區域組織的,但這些區域的大小各不相同。我認爲標準的無監督3D聚類應該可以解決我的問題。由於我無法先驗地估計聚類的數量,我嘗試使用k的寬範圍的k-means,但是速度很慢,而且我也不得不估計每個k分區有多重要。 基本上,我的問題是:我怎樣才能將我的點的最重要的分區提取到集羣?3D點的聚類

回答

0

從上面我不清楚,如果你打算使用k-means或者不使用k-means,但是如果你是這樣,你應該遵循下面的帖子的迴應,它顯示瞭如何測量羣集的方差。

Calculating the percentage of variance measure for k-means?

此外,您可以嘗試2至十五K大小的簇獲得使用「肘法」一個不錯的選擇。請參閱Amro關於此過程的答案。

0

在這種情況下,一個簡單的想法是沿每個維度使用3個不同的聚類。這可能會加快速度。

因此,您可以沿X軸找到羣集(將所有點投影到X軸),然後繼續沿Y軸形成子羣集,然後沿着Z軸形成子羣集。

我認爲使用動態編程http://www.sciencedirect.com/science/article/pii/0025556473900072可以非常有效地解決一維k-均值問題。

1

k-means可能不是這種數據的最佳方法。

DBSCAN應該更接近你的直覺密集的地區。

先試試樣品,然後弄清楚如何放大。