spark 2自定義數據源 - 如何將數組列設置爲null？

我有一個自定義的spark數據源，數據由java庫提供。有些字段是ArrayType，偶爾是NULL。我已經嘗試將數組字段設置爲None，null，lit（null），Option（null）以及可能的其他幾種變體，並且在每種情況下催化劑在嘗試解析陣列字段時都拋出NPE。spark 2自定義數據源 - 如何將數組列設置爲null？

就我所知，Catalyst沒有在ArrayConverter的toCatalystImpl（）方法（從CatalystTypeConverters.scala）中檢查null。這是一個Catalyst錯誤，還是有一些其他的數據框ArrayType字段的空編碼？

來源

2017-09-16 user2879837

與此問題相關嗎？ https://stackoverflow.com/questions/39734453/spark-dataframe-column-nullable-property-change – stealththeninja

我的不好，我發現這個問題（黑了一塊錯誤的代碼）。最終答案似乎是「Option（null）」。我嘗試了None並點亮了（null：），但都拋出異常。

來源

2017-09-16 17:19:41 user2879837

spark 2自定義數據源 - 如何將數組列設置爲null？

回答

相關問題