2015-12-02 61 views
-1

我正在使用在互聯網上找到的關於用戶和他們的電影評級的數據庫。在我從csv文件讀取它們並將它們保存到數據框之後,我想創建一組用戶電影評級。創建用戶電影評級數組

user_dataframe : user_id,movie_id,stars 
        0  02  3 
        1  01  2 
        2  03  5 
        0  01  4 
        0  03  5 

movie_dataframe : movie_id,average_rating,genre 
        02  3.5  horror 
        03   4   action 
        01  2.5  adventure 

預期陣列的輸出:

user_id | 0 | 1 | 2 
movie_id|  |  | 
01  | 4 | 2 | NaN 
02  | 3 | NaN | NaN 
03  | 5 | NaN | 5 

我嘗試使用df.pivot_table,但我得到一個錯誤,指出:包含重複的條目,不能重塑。另外我嘗試了numpy數組,但是我在使用字符串時遇到了麻煩。任何幫助,將不勝感激!!

回答

0

我試着用

df.pivot_table(index='movie_id',columns='user_id') 

和它的作品

+0

這個沒有工作對我來說,因爲我有太多的價值,當我執行該命令,收到錯誤消息'IndexError:指數815938881超出範圍爲0,大小爲815934795' – Fotis