1
我很喜歡使用Spark sql,但之前遇到過一個問題。 由於每個分區的RDD大小限制,Spark sql會吐出以下錯誤消息; (INT_MAX)。我可以用SQL語句指定並行度嗎?
16/03/03 15:41:20 INFO TaskSetManager: Lost task 142.2 in stage 4.0 (TID 929) on executor 10.1.100.116: java.lang.RuntimeException (java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE
at sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:828)
at org.apache.spark.storage.DiskStore$$anonfun$getBytes$2.apply(DiskStore.scala:125)
at org.apache.spark.storage.DiskStore$$anonfun$getBytes$2.apply(DiskStore.scala:113)
at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1206)
at org.apache.spark.storage.DiskStore.getBytes(DiskStore.scala:127)
所以我想增加每個RDD的分區數來解決這個問題。我可以在Spark sql中調整它們嗎?