我非常喜歡點火,並且想要就如何解決以下問題提供建議。火花中的時間序列計算
我的蠟燭數據(高,低,開,關)在一年中的一個交易日的每一分鐘。這代表大約360,000個數據點。
我想要做的是在數據(可能每個數據點)上運行一些模擬,我想要給定的數據點,獲取以前(或下一個)x個數據點,然後運行一些代碼橫跨那個給結果。
理想情況下,這將是一個映射樣式函數,但不能在Spark中執行嵌套操作。我可以考慮的唯一方法就是創建一個Candle的DataSet作爲關鍵字,並將相關數據進行非標準化或將其分配到每個關鍵字上 - 無論哪種方式似乎效率都不高。
理想情況下,我正在尋找的東西(蠟燭,列表) - >雙或類似的東西。
我相信有更好的方法。
我正在使用Spark 2.1.0並使用Yarn作爲調度引擎。
謝謝你的回答,雖然我不能標記正確,但我理解你的理論基礎,並且已經實施了一些可以使數據無法正常分析的內容。這種邏輯不起作用是令人遺憾的,但我現在明白爲什麼它是這種情況。 –