我有幾千行,看起來像這樣的熊貓數據幀:大熊貓:分組和重新編制後的行之間的操作
x.head()
id jname wbdqueue_id startdatetime \
59 1341127 ondemand_build_baspen-w7g 26581 2017-07-31 23:14:56
60 1341126 ondemand_qa_qforchecka 26581 2017-07-31 23:15:35
61 1341125 ondemand_build_bchecka 26581 2017-07-31 23:14:56
63 1341123 ondemand_build_baspen-w7f 26581 2017-07-31 23:10:05
64 1341122 ondemand_update_waspen-w7a 26581 2017-07-31 23:09:32
enddatetime
59 2017-07-31 23:19:12
60 2017-07-31 23:34:12
61 2017-07-31 23:15:30
63 2017-07-31 23:14:56
64 2017-07-31 23:10:00
我想,每個wbdqueue_id,得到的startDateTime之間的差異 ondemand_update_waspen-w7a和enddatetime ondemand_build_baspen-w7g。有什麼辦法呢?
我壓縮了CSV文件並解析了兩個10 startdatetime和enddatetime as time。然後我按wbdqueue_id分組。我的想法是通過jname索引每個組,以便我可以找到我需要的兩個jname的開始和結束時間戳。 但是,當我這樣做時,所有其他值成爲NaN或NaT(對於時間列)。
-Sachin
雖然PiRSquared的建議是成功的,但我認爲這更靈活。我已經遇到了數據清理問題(有些組沒有這兩個_jname_)。我仍然試圖弄清楚如何在groupby之後清除/放棄組,如果數據丟失並且groupby的函數似乎是一種合理的方式來執行此操作。謝謝! –