我正在嘗試修改Sklearn示例here以使用我自己的數據集,這是一個1000行,4列整數矩陣。我看不出如何用我的SKlearn數據集替換其中的一個。即我該如何取代如何在Sklearn集羣中使用我的數據集?
noisy_circles = datasets.make_circles(n_samples=n_samples, factor=.5,
noise=.05)
與?
我正在嘗試修改Sklearn示例here以使用我自己的數據集,這是一個1000行,4列整數矩陣。我看不出如何用我的SKlearn數據集替換其中的一個。即我該如何取代如何在Sklearn集羣中使用我的數據集?
noisy_circles = datasets.make_circles(n_samples=n_samples, factor=.5,
noise=.05)
與?
datasets.make_circles
函數創建一個非常清晰的模式的toy dataset。它返回的數據是一個包含X數組要素(n×2維)和y數組標籤(長度爲n)的元組。
要將數據傳遞到羣集腳本中,只需將其放入類似的格式中,並使用該格式代替由make_circles
返回的值。
將您的數據加載爲2維numpy數組。閱讀numpy和scipy的文檔,根據您手頭的文件格式來學習如何操作。
在運行聚類算法之前,如果整數平均類別分配而不是數量,則可能需要使用one-hot encoder預處理數據。
如果它們代表數量,則可能需要使用StandardScaler進行預處理。