如何避免「任務大小過大」？

我的問題是，在使用Spark SQL將表格非規範化爲更大的表格時，我得到的任務大小過大。如何避免「任務大小過大」？

在人們指出其他答案說使用廣播或避免關閉整個班級之前;讓我說我已經閱讀過這些內容，並且在使用Spark SQL時仍然特別困惑。

使用Spark SQL時，我的任務大小高達推薦大小的10倍。

這裏的情況：

額外的信息：

你可以在問題中包含警告嗎？你能顯示導致警告的代碼嗎？ –

-1

火花，你可以選擇caching (persistence) level一些大的內存中對象卸載到磁盤，並使用unpersist()選擇哪一個已緩存的結果扔掉。

2017-03-06 06:03:54 ulysses

請充實一下你的回答，例如解釋如何選擇緩存級別以避免大量內存使用，以及如何使用'unpersist（）'來釋放內存。 – ktdrv

回答