Apache Spark內存不足，分區數量較少

我有一個Spark應用程序，內存不足，集羣有兩個節點，大約有30G的RAM，輸入數據大小約爲幾百GB。Apache Spark內存不足，分區數量較少

該應用程序是一個Spark SQL作業，它從HDFS讀取數據並創建一個表並緩存它，然後執行一些Spark SQL查詢並將結果寫回HDFS。

最初我將數據分成64個分區，然後我得到了OOM，然後我可以通過使用1024個分區修復內存問題。但爲什麼使用更多的分區幫助我解決了OOM問題？

2016-06-30 elgoog

大數據解決方案是分區（分而治之）。由於不是所有的數據都可以放入內存中，而且也不能在一臺機器上處理。

每個分區都可以放入內存並在相對較短的時間內處理（地圖）。在爲每個分區處理數據之後。它需要合併（減少）。這是傳統map reduce

將數據拆分爲更多的分區意味着每個分區越來越小。

[編輯]稱爲彈性分佈式數據集（RDD）

火花使用革命概念。

Spark DAG

我做了一個小截屏上的Youtube Spark Makes Big Data Sparking介紹。

2016-06-30 22:57:49

我同意每個分區的大小都比較小，但由於我正在緩存RDD（應該在後文中提到這一點），這些分區應該仍然在內存中，對嗎？因此，無論分區的數量如何，內存中的數據大小都應該相同 – elgoog

回答