我有時間序列數據的一個非常大的表有這些列:應用自定義函數的火花數據幀組
- 時間戳
- LicensePlate
- UberRide#
- 速度
每一批LicensePlate/UberRide數據都應該考慮整套數據進行處理。換句話說,我不需要需要逐行處理數據,但所有的行按照(LicensePlate/UberRide)分組在一起。
我打算在數據框api中使用spark,但是我對如何執行spark組合數據框的自定義計算感到困惑。
我需要做的是:
- 獲取所有數據
- 集團通過一些列
- 的foreach火花數據幀組施加一個F(X)。返回自定義對象的foreach組
- 通過應用G(X)並返回一個自定義對象
我可以做怎樣步驟3和4得到的結果?我應該使用哪些API(dataframe,dataset,rdd,可能是熊貓...)的任何提示?
的整個工作流程可以看到下面:
熊貓不是Spark的一部分,你可以使用'DataFrame',但是你必須[必須在Scala中執行](http://stackoverflow.com/a/32101530/1560062)和[add Python包裝](http://stackoverflow.com/a/33257733/1560062),RDD應該工作得很好。 – zero323
我不能直接使用Spark嗎?我使用Spark 1.6.2 – guilhermecgs
如果你的意思是PySpark,那麼就像我說的 - RDDs應該工作得很好。 – zero323