0
我試圖將k-means算法實現爲大型數據集,因爲k-means的目標是將一組數據點劃分爲k個羣集。 我不確定我是否會用k-means羣集對數據集進行重新分區,它是否能夠提高數據處理的性能?k-均值算法會提高數據處理的性能嗎?
我試圖將k-means算法實現爲大型數據集,因爲k-means的目標是將一組數據點劃分爲k個羣集。 我不確定我是否會用k-means羣集對數據集進行重新分區,它是否能夠提高數據處理的性能?k-均值算法會提高數據處理的性能嗎?
答案是肯定的。試試這個,
將原始數據集分成塊;稱爲單位塊(UB)的每個塊單元包含至少一個圖案。我們可以通過簡單的計算來定位單位塊(CUB)的質心。所有計算的CUB形成表示原始數據集的簡化數據集。然後將縮小的數據集用於計算原始數據集的最終質心。我們只需要在候選集羣的邊界上檢查每個UB,爲UB中的每個模式找到最接近的最終質心。這樣,我們可以大大縮短計算最終收斂質心的時間。
謝謝!這真的很有幫助!但它是否能夠提高處理速度,如數據查詢或計算到大型數據集? –
在我們的實驗中,該算法產生了與其他k均值算法相當的聚類結果,但性能更好。試試你的數據集。 – SIlverstripeNewbie