Spark作業在較小數據集上的估計開銷

是否有任何rules of thumb - 當數據大小足以抵消火花處理需要的開銷時？Spark作業在較小數據集上的估計開銷

我正在處理1至10萬條記錄。每個記錄攜帶5個ID;和少量（少於5000個字符）的文本量。

工作量是創建報告 - 所以篩選;組和聚合。在多數情況下;頂級聚合將覆蓋所有記錄;所以在報告生成中的某個時刻 - 我沒有一個好的分區鍵可以使用。

意識到問題在細節上是低的;但是這是否跳出了我在Spark中做了許多愚蠢事情的頁面？或者會引發工作協調可能會增加這種開銷;而且我希望只在更大的數據集上使用Spark？

感謝

2017-06-24 brent

我來到文檔的最翔實的一塊橫跨是

Spark can efficiently support tasks as short as 200 ms https://spark.apache.org/docs/2.1.0/tuning.html

2017-07-07 18:07:30 brent

回答