2016-07-17 138 views
1

我有這個巨大的csv文件列名爲timedim,unblendedcost和更多。我在熊貓加載此,並試圖做一些這相當於這個SQL語句,熊貓替代SQL語句

SELECT SUM(unblendedcost),從用途組timedim一天(timedim),其中的用法是我在數據庫

我表確實嘗試將CS​​V加載到數據庫中,但它的行數爲600萬行。 任何幫助將非常感激

回答

1

它看起來像需要:

usages.groupby('timedim', as_index=False)['unblendedcost'].sum() 

如果timedimdtype爲datetime與時間信息,使用:

usages.unblendedcost.groupby(df.timedim.dt.date, as_index=False).sum() 

樣品:

import pandas as pd 

usages = pd.DataFrame({'timedim':[1,1,3,3], 
         'unblendedcost':[1,2,3,4], 
         'a':[7,8,9,8]}) 

print (usages) 
    a timedim unblendedcost 
0 7  1    1 
1 8  1    2 
2 9  3    3 
3 8  3    4 

print (usages.groupby('timedim', as_index=False)['unblendedcost'].sum()) 
    timedim unblendedcost 
0  1    3 
1  3    7 
+0

老兄,你是超級巨星。謝謝你太多了。 –

+0

請參閱示例,如果我的解決方案是你真正想要的。 – jezrael