我偶然發現了pandas,它對於我想要做的簡單計算來說很理想。我有一個SAS背景,並認爲它會取代proc freq - 它看起來會擴展到我未來可能要做的。然而,我似乎無法讓我的腦子圍繞一個簡單的任務(我不知道我是否應該看看pivot/crosstab/indexing
- 是否應該有Panel
或DataFrames
等)。可能有人給我如何做一些指針以下:簡單的熊貓交叉表
我有兩個CSV文件(一個2010年,一個於2011年 - 簡單的交易數據) - 該列類別和金額
2010:
AB,100.00
AB,200.00
AC,150.00
AD,500.00
2011:
AB,500.00
AC,250.00
AX,900.00
這些被加載到單獨的數據幀的對象。
我想什麼做的就是類別,該類別的總和,該類別的頻率,例如:
2010:
AB,300.00,2
AC,150.00,1
AD,500.00,1
2011:
AB,500.00,1
AC,250.00,1
AX,900.00,1
我不能確定我是否應該使用pivot/crosstab/groupby/an index
等......我可以得到總和或頻率 - 我似乎無法得到兩者......它變得更復雜一點因爲我想每個月都這樣做,但我認爲如果有人願意指點我正確的技術/方向,我就可以從那裏開始。
那麼你是說每個'.csv'文件只是一行,然後在這一行中第一個值是一年後跟上面提到的數據? – benjaminmgross 2012-03-07 15:08:33
Hi Factor3,這就是S/O決定對它進行格式化的方式(我第一次使用它,所以將來必須注意這一點)...讓我澄清...有兩個文件 - 2010。 csv和2011.csv;這些包含'n'許多行,每行包含兩列。我試圖簡化這個問題 - 但是確實認爲現在我已經讀過它了,格式化有些誤導! – 2012-03-08 00:10:38
我已經在這個[** Q&A **](https://stackoverflow.com/q/47152691/2336654)中提供了幾個詳細的示例和替代方法,您或其他人可能會發現有幫助。 – piRSquared 2017-11-11 22:21:17