2

H2O蘇打水往往拋出異常,下面,我們就重新運行時手動發生這種情況。問題是spark事件在發生這種異常時不會退出,它們不會返回退出狀態,並且我們無法自動執行此過程。蘇打水往往拋出java.lang.ArrayIndexOutOfBoundsException:65535

App > Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 316 in stage 22.0 failed 4 times, most recent failure: Lost task 316.3 in stage 22.0 (TID 9470, ip-**-***-***-**.ec2.internal): java.lang.ArrayIndexOutOfBoundsException: 65535 
App > at water.DKV.get(DKV.java:202) 
App > at water.DKV.get(DKV.java:175) 
App > at water.Key.get(Key.java:83) 
App > at water.fvec.Frame.createNewChunks(Frame.java:896) 
App > at water.fvec.FrameUtils$class.createNewChunks(FrameUtils.scala:43) 
App > at water.fvec.FrameUtils$.createNewChunks(FrameUtils.scala:70) 
App > at org.apache.spark.h2o.backends.internal.InternalWriteConverterContext.createChunks(InternalWriteConverterContext.scala:28) 
App > at org.apache.spark.h2o.converters.SparkDataFrameConverter$class.org$apache$spark$h2o$converters$SparkDataFrameConverter$$perSQLPartition(SparkDataFrameConverter.scala:86) 
App > at org.apache.spark.h2o.converters.SparkDataFrameConverter$$anonfun$toH2OFrame$1$$anonfun$apply$2.apply(SparkDataFrameConverter.scala:67) 
App > at org.apache.spark.h2o.converters.SparkDataFrameConverter$$anonfun$toH2OFrame$1$$anonfun$apply$2.apply(SparkDataFrameConverter.scala:67) 
App > at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70) 
App > at org.apache.spark.scheduler.Task.run(Task.scala:85) 
App > at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274) 
App > at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 
App > at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 
+0

當H2O集羣失敗這通常發生 - 你在日誌中看到任何其他異常?你能分享你的用例和環境嗎? –

回答

0

這個問題在下面波光粼粼的水面項目的問題正在調查中:

它看起來有點相關的數據的大小。

發生這種情況,當我們試圖去拉一個巨大的火花數據幀到H2O框架。 63m記錄x 6300列。 雖然H2O /蘇打水簇尺寸合適的:(有40個執行者的每個存儲X 17G和各星火執行有4個線程/核心) 的內存,使總量爲680Gb

我們從來沒有得到較小的這個錯誤數據集。