我在Python和Pandas中設置了我的第一個分析(兩者都是新手),並且關於如何正確設置它的幾個問題/問題。基本上,我試圖以時間序列來看待用戶行爲,但我有更多的用戶比天,所以我試圖每月看。我已經建立了DataFrame
這樣:引用/計算Pandas中DataFrame中的前一列
df2 = pd.DataFrame({'ID':range(100)})
df2['Day1'] = random.sample(xrange(1000), 100)
df2['Day2'] = random.sample(xrange(1000), 100)
df2['Day3'] = random.sample(xrange(1000), 100)
我已嘗試將索引添加到「ID」列幾種方式,但1)我不知道我需要它,2)關我的方法將採取。這是我曾嘗試:
df2 = pd.DataFrame({'ID':range(100)}, index_col='ID')
df2 = pd.DataFrame({'ID':range(100)}, index_col=0)
df2.index(0)
df2.index('ID')
df2.reindex(index='ID')
df2.reindex(index=0)
的什麼,我試圖去建立一個新的數據幀,它會顯示在第2天的值是否大於1天小於95%的最終輸出,無論是3天爲95%少於第2天 - 以後(想象我有100列的DataFrame
)。輸出我是這樣看可能是這樣的:
ID Day2 Day3
1 NaN 1
2 NaN NaN
3 NaN NaN
4 1 NaN
我認爲合適的方法來確定這是這樣運行了一個for循環的東西:
for i in df2:
if (Day2-Day1)/Day1 < .95:
print 1
不過,我不知道如何我可以引用我函數中的列,也不能如何靈活地將此函數包含在DataFrame
中的所有列中。我應該如何引用這個函數的列?
我應該如何引用這個函數的列?