我有一組單位間隔的數據點(即帶有數值的1維數據集)。我在線收到一些額外的數據點,而且某些數據點的值可能會動態變化。我正在尋找一種能夠有效處理這些問題的理想聚類算法。高效的動態聚類
我知道sequential k-means clustering應對新增實例,我想稍作修改就可以使用動態實例值(即首先從相應的集羣中取出修改的實例,然後更新集羣的平均值並最終給出修改後的實例作爲算法的輸入,就像添加一個看不見的實例一樣)。
我對使用k-means算法的擔憂是需要提供羣集數作爲輸入。我知道他們在空間複雜性方面擊敗了其他聚類算法(GAs,MSTs,Hierarchical Methods等)。老實說,我不確定,但也許我可以逃脫使用上述算法之一。即使我的數據集相對較大,單個維度的存在也讓我感到驚訝。
更具體地說,我的一個典型測試案例將包含大約10K-200K一維數據點。我想在一秒鐘之內完成羣集。假定值點的動態變化是平滑的,即相對較小。因此,能夠使用現有的解決方案(即,當價值改變或添加新的解決方案時能夠繼續聚集現有的解決方案)是非常優選的。
因此,所有的一切:
你能想到的算法,將提供計算效率和集羣WRT的準確度之間的甜蜜點。上面定義的問題?
是否有一些很好的啓發式算法可以預先自動計算K值?
HTTP之一://數據科學.stackexchange.com /將是更相關的地方問這個好問題:) – Yavar