1
我有一天中分佈的數據。 我對它進行聚類,然後計算每個小時每小時的比率(重量)(並非所有小時都存在)。 (數據幀time_df)由小時和使用NP bincount從不同大小的元組填充數據框
cluster Date
0 1 2014-02-28 14:24:59.535000+02:00
1 1 2014-02-28 14:26:35.019000+02:00
2 1 2014-02-28 14:27:37.213000+02:00
3 2 2014-02-28 14:28:35.246000+02:00
4 2 2014-02-28 14:29:37.283000+02:00
I組計算每個簇的權重:
group_by_hour = time_df.groupby(time_df.Date.dt.hour)
cluster_ids_hour = group_by_hour.cluster.\
apply(lambda arr: list(range(0,(arr+1).max()+1)))
cluster_ratio_hour = group_by_hour.cluster.\
apply(lambda arr: 1.0*np.bincount(arr+1)/len(arr))
這給出每小時簇的不同陣列的大小和它們的重量 它試圖構建數據幀
pd.DataFrame(溫度,列= [ '小時', '簇', '比例'])
但我得到以下幾點:
hour clusters weights
0 14 [0] [1.0]
1 15 [0, 1] [0.488888888889, 0.511111111111]
2 16 [0, 1, 2] [0.302325581395, 0.162790697674, 0.53488372093]
3 17 [0, 1, 2] [0.0, 0.0, 1.0]
4 18 [0, 1, 2] [0.0, 0.0, 1.0]
5 19 [0, 1, 2] [0.0, 0.0, 1.0]
6 20 [0, 1, 2] [0.0, 0.0, 1.0]
7 21 [0, 1, 2] [0.0, 0.0, 1.0]
8 22 [0, 1, 2] [0.0, 0.0, 1.0]
9 23 [0, 1, 2] [0.0, 0.0, 1.0]
我怎樣才能讓它的集羣作爲索引和小時爲列?
0 1 2 3 4 ...
0 0.2 0.6 0.4 0.0 0.6
1 0.0 0.4 0.1 0.0 0.4
2 0.8 0.0 0.5 1.0 0.0
謝謝,這工作正常! –
我想知道,這種方法給一天的集羣權重。我會運行幾天,然後把它們全部結合起來。 在某些日子裏,我只有部分時間(例如12,13,14),而其他時間會包括所有的時間, 我如何使用不同數量的列連接數據幀? –
對不起,我不確定我是否理解你。你需要[concat](http://pandas.pydata.org/pandas-docs/stable/merging.html#set-logic-on-the-other-axes)函數嗎? – jezrael