我有下面的數據框'df',基於我想創建一個新的df'new_df'。我有一些麻煩得到新的DF。Python Pandas:基於兩列在dataFrame中創建新行
Cust-id Sex Country Orders Products
0 'Cu1' 'F' 'FR' 'ord1 + ord2' 'A+G'
1 'Cu2' 'M' 'US' 'ord3' 'C'
2 'Cu3' 'M' 'UK' 'ord4 + ord5' 'H+Z'
3 'Cu4' 'F' 'RU' 'ord6' 'K'
4 'Cu5' 'M' 'US' 'ord7' 'T'
5 NaN 'M' 'UK' 'ord#' 'K'
6 'Cu6' 'F' 'US' 'ord8+ord9+ord10' 'R+D+S'
7 'Cu7' 'M' 'UK' 'ord11' 'A'
我想'new_df'爲每個'訂單'與相應的'產品'包含一行。所有其他列保留其內容。另外,如果'Cust-id'列中的行是NaN,那麼應該刪除完整的行(即不存在於新的df中)。這將給以下new_df:
Cust-id Sex Country Orders Products
0 'Cu1' 'F' 'FR' 'ord1' 'A'
1 'Cu1' 'F' 'FR' 'ord2' 'G'
2 'Cu2' 'M' 'US' 'ord3' 'C'
3 'Cu3' 'M' 'UK' 'ord4' 'H'
4 'Cu3' 'M' 'UK' 'ord5' 'Z'
5 'Cu4' 'F' 'RU' 'ord6' 'K'
6 'Cu5' 'M' 'US' 'ord7' 'T'
7 'Cu6' 'F' 'US' 'ord8' 'R'
8 'Cu6' 'F' 'US' 'ord9' 'D'
9 'Cu6' 'F' 'US' 'ord10' 'S'
10 'Cu7' 'M' 'UK' 'ord11' 'A'
任何幫助/指導表示讚賞。
感謝您的幫助jezrael,大加讚賞。創建df1時會出現ValueError(「不能從重複軸重新索引」)。任何想法如何解決這個問題? –
然後嘗試'df = pd.concat([s1,s2],keys =('Orders','Products'),axis = 1)'抱歉,未經測試,因爲我只在手機上。 – jezrael
非常感謝,但您的初始代碼似乎工作,我的數據中有錯誤。 –