1
我有一堆列,樣本如我的數據顯示如下所示。 我需要檢查列的錯誤,並將不得不生成兩個輸出文件。 我正在使用Apache Spark 2.0,我希望以有效的方式做到這一點。使用火花數據框進行字段數據驗證
Schema Details
---------------
EMPID - (NUMBER)
ENAME - (STRING,SIZE(50))
GENDER - (STRING,SIZE(1))
Data
----
EMPID,ENAME,GENDER
1001,RIO,M
1010,RICK,MM
1015,123MYA,F
我excepected輸出文件應該如圖6-8所示:
1.
EMPID,ENAME,GENDER
1001,RIO,M
1010,RICK,NULL
1015,NULL,F
2.
EMPID,ERROR_COLUMN,ERROR_VALUE,ERROR_DESCRIPTION
1010,GENDER,"MM","OVERSIZED"
1010,GENDER,"MM","VALUE INVALID FOR GENDER"
1015,ENAME,"123MYA","NAME SHOULD BE A STRING"
感謝
謝謝兄弟。我嘗試過使用這種方法,它運行良好。但如果我在單個列上有多個驗證(這裏是性別),我不知道如何處理它或返回。 – 1pluszara
如果它適合您,請您接受答案?同時我會想一想你的問題,如果我能拿出一些東西 –
完成。一旦我的聲望超過15,我只能贊同。我在這裏是一個新手。謝謝 – 1pluszara