我有一個包含5列的數據框。我正在嘗試爲三個變量X
,Y
和Z
聚類點,並找出kmeans聚類的損失函數。下面的代碼會照顧到這一點,但是如果我使用160,000
行對我的真實數據框運行此操作,它需要永遠!我認爲它可以做得更快。計算大熊貓數據框中kmeans的損失函數
PS:看來KMeans
模塊在sklearn
不提供損失函數,這就是爲什麼我寫我自己的代碼。
from sklearn.cluster import KMeans
import numpy as np
df = pd.DataFrame(np.random.randn(1000, 5), columns=list('XYZVW'))
kmeans = KMeans(n_clusters = 6, random_state = 0).fit(df[['X','Y', 'Z']].values)
df['Cluster'] = kmeans.labels_
loss = 0.0
for i in range(df.shape[0]):
cluster = int(df.loc[i, "Cluster"])
a = np.array(df.loc[i,['X','Y', 'Z']])
b = kmeans.cluster_centers_[cluster]
loss += np.linalg.norm(a-b)
print(loss)
避免Python代碼,如for循環。口譯員很慢。向量化您的操作! –