2
我正在處理一個具有500個維度的640萬個樣本的數據集,並且我試圖將它分組爲200個集羣。我僅限於90GB的內存,當我嘗試從sklearn.cluster運行MiniBatchKmeans時,操作系統將殺死用盡太多內存的進程。有沒有辦法減少小批量kmeans的內存使用量?
這是代碼:
data = np.loadtxt('temp/data.csv', delimiter=',')
labels = np.genfromtxt('temp/labels', delimiter=',')
kmeans = cluster.MiniBatchKMeans(n_clusters=numClusters, random_state=0).fit(data)
predict = kmeans.predict(data)
Tdata = kmeans.transform(data)
它不會讓過去集羣。
對不起,我之前的回答是錯誤的。我錯過了你沒有使用GPU,但實際用完了主RAM。 –
我確實擁有GPU訪問權限。你認爲我可以重寫這個在GPU上工作而不佔用太多內存嗎? – user1816679
不,你想要做的是延遲加載數據文件,我。即一片一片。我知道這是可能的,而且不是非常困難,但不幸的是現在不記得具體細節。 –