我有這樣的數據集,大熊貓分組數據幀 - 蟒
PRODUCT_ID SALE_DATE SALE_PRICE PROVIDER
1 01/02/16 25 1
1 02/10/16 60 1
1 01/11/16 63 2
1 09/10/16 65 3
2 11/11/15 54 1
2 13/01/16 34 2
3 19/05/14 45 1
3 15/10/15 38 1
3 16/06/14 53 2
3 18/10/15 58 2
這是一個組合數據集,由不同的供應商所提供的數據,對每個銷售沒有共同的標識符。這裏的問題是每個數據提供者在每次銷售時都會有略微不同的日期和價格。所以我試圖將它們組合在一起作爲單組銷售。因此,這裏的業務邏輯是數據提供者1是第一個獲得銷售數據,因此對於產品ID,如果來自提供者2或3的銷售日期在1個月時間內並且價格在10美元差異內(或多或少) ,我們認爲它們是相同的銷售,否則將被視爲不同的銷售。所以,輸出應該看起來像,
PRODUCT_ID SALE_DATE SALE_PRICE PROVIDER SALE_GROUP_ID
1 01/02/16 25 1 1
1 02/10/16 60 1 2
1 01/11/16 63 2 2
1 09/10/16 65 3 2
2 11/11/15 54 1 3
2 13/01/16 34 2 4
3 19/05/14 45 1 5
3 15/10/15 38 1 6
3 16/06/14 53 2 5
3 18/10/15 58 2 7
如何在熊貓中實現這一點,有人可以幫助嗎?謝謝。
'18/10/15'和「11/11/15」都在一個月內,價格差異在10美元。他們是同樣的銷售? – srig
沒有。因爲他們有不同的product_id。 PRODUCT_ID應該被視爲相同的銷售。 –
'19/05/14'和'16/06/14'具有相同的PRODUCT_ID,都在一個月內,價格差異爲10美元,並且是相同的銷售。他們的銷售ID是否需要按順序排列? – srig