我有一個包含四列的海量數據框,其中兩列是'日期'(格式爲datetime
)和'頁面'(位置另存爲string
)。我已將數據框分組爲'page',並將其稱爲pagegroup
,並且想知道每個頁面被訪問的時間範圍(例如,第一次訪問在1-1-13上,最後一次在1-5-13上,所以max-min是5天)。在pandas中的GroupBy對象上計算date_range
我知道熊貓,我可以使用date_range
比較兩個日期時間,但在嘗試喜歡的事:
pagegroup['date'].agg(np.date_range)
回報
AttributeError: 'module' object has no attribute 'date_range'
,而試圖簡單(非特定日期的)numpy的功能ptp
給我一個整數的答案:
daterange = pagegroup['date'].agg([np.ptp])
daterange.head()
ptp
page
%2F 0
/ 13325984000000000
/-509606456 297697000000000
/-511484155 0
/-511616154 0
有誰能想到一種計算日期範圍的方法,並使其以可識別的日期格式返回?
謝謝
['date_range'](http://pandas.pydata.org/pandas-docs/stable/timeseries。 html#time-series-date-functionality)是一個熊貓函數(所以它是'pd.date_range'而不是'np'),但它不會比較兩個日期時間。 –