我有一個電影數據框,其中包含電影名稱,它們各自的類型和矢量表示(numpy數組)。在熊貓數據框和平均數組中按列分組
ID Year Title Genre Word Vector
1 2003.0 Dinosaur Planet Documentary [-0.55423898, -0.72544044, 0.33189204, -0.1720...
2 2004.0 Isle of Man TT 2004 Review Sports & Fitness [-0.373265237, -1.07549703, -0.469254494, -0.4...
3 1997.0 Character Foreign [-1.57682264, -0.91265768, 2.43038678, -0.2114...
4 1994.0 Paula Abdul's Get Up & Dance Sports & Fitness [0.3096168, -0.57186663, 0.39008939, 0.2868615...
5 2004.0 The Rise and Fall of ECW Sports & Fitness [0.17175879, -2.38005066, -0.45771399, 1.32608...
我想組按流派,並得到各流派的平均向量表示(在體裁每部電影矢量分量明智的平均值)。
我第一次嘗試:
movie_df.groupby(['Genre']).mean()
但內置的均值函數不能採取numpy的陣列的平均值。
我試圖創造我自己的函數來進行,然後將其應用到各組,但我不知道這是用正確適用:
def vector_average(group):
series_to_array = np.array(group.tolist())
return np.mean(series_to_array, axis = 0)
movie_df.groupby(['Genre']).apply(vector_average)
任何指針將不勝感激!
可否請您打印出'df.head(5)'和它貼在這裏? –
是的,但在問題中。 –
我不熟悉提供數據框樣本的最佳方式 - 此處的建議也將不勝感激! – Matt