0
我們已經得到了一個3GB的XML,我們必須驗證然後將其扁平化。我們預計會使用Spark-Java來驗證它並將其展平。展平的數據將被攝取到Hive表格中。 此外,驗證應該在XML中拋出不良記錄(以便我們可以將相同的內容寫回到Kafka主題,以使源系統知道它)。壞記錄不應該存儲在配置單元表中。 客戶不推薦基於com.databricks.spark.xml進行展平。 請幫忙。如果不是代碼,算法也會有所幫助。火花java中的XML驗證
我嘗試過使用Validator類的幫助。但仍然無法刪除根據XSD損壞的記錄。 –