我正在嘗試在一個龐大的數據集上使用Spark的MLib,我們目前已經在時間序列數據庫中保留了這個數據集。假設我們的時間序列數據庫中有數據A,B,C,D和E,我想先加載A,B,C並首先進行一些轉換,然後將轉換後的數據傳遞給Spark MLib。Apache Spark RDD工作流程
我在這方面有幾個問題。是否有我應該考慮的標準工作流程?我的意思是數據的加載,轉換對我來說似乎仍然是一個問題。這不是Spark特有的。我想知道使用Apache Camel這樣的框架進行ETL是否有任何好處,然後將結果提供給Spark?
有什麼建議嗎?