數據集:我得到了每個客戶每天使用產品的分鐘數,並試圖將這些數據集羣以便找到常見的使用模式。爲使用羣集準備數據
我的問題:如何格式化數據,以便例如一年內使用率高的高級用戶看起來與僅能夠使用該設備一個月的不同高級用戶相同在我結束數據收集之前?
到目前爲止,我已將每個客戶轉換爲數組,其中每個單元格是當天使用的分鐘數。該陣列在用戶第一次使用產品時開始,並在用戶第一年使用後結束。對於聚類模型,單元格中的所有條目都必須是double值(使用200.0分鐘)。我曾考慮將數據收集的最後一天之後的所有單元格/天設置爲-1.0或NULL。這些都是有效的方法嗎?如果不是,你會建議什麼?
請**不要交叉**:http://datascience.stackexchange.com/q/11456/924 –
數據科學社區要小得多,我沒有及時預測到任何反應即使他們在這個問題上更合格。爲什麼把同一個問題發佈到兩個不同的社區是不合適的? –