2017-06-24 26 views
0

是否有任何rules of thumb - 當數據大小足以抵消火花處理需要的開銷時?Spark作業在較小數據集上的估計開銷

我正在處理1至10萬條記錄。每個記錄攜帶5個ID;和少量(少於5000個字符)的文本量。

工作量是創建報告 - 所以篩選;組和聚合。在多數情況下;頂級聚合將覆蓋所有記錄;所以在報告生成中的某個時刻 - 我沒有一個好的分區鍵可以使用。

意識到問題在細節上是低的;但是這是否跳出了我在Spark中做了許多愚蠢事情的頁面?或者會引發工作協調可能會增加這種開銷;而且我希望只在更大的數據集上使用Spark?

感謝

回答

相關問題