0
我有一個自定義的spark數據源,數據由java庫提供。有些字段是ArrayType,偶爾是NULL。我已經嘗試將數組字段設置爲None,null,lit(null),Option(null)以及可能的其他幾種變體,並且在每種情況下催化劑在嘗試解析陣列字段時都拋出NPE。spark 2自定義數據源 - 如何將數組列設置爲null?
就我所知,Catalyst沒有在ArrayConverter的toCatalystImpl()方法(從CatalystTypeConverters.scala)中檢查null。這是一個Catalyst錯誤,還是有一些其他的數據框ArrayType字段的空編碼?
與此問題相關嗎? https://stackoverflow.com/questions/39734453/spark-dataframe-column-nullable-property-change – stealththeninja