我正在研究一個將作爲模擬工具鏈數據集的OLAP引擎的系統。這些工具以XML格式生成結果。使用Spark和C處理XML文件#
對我來說,最簡單和最簡單的解決方案就是直接使用spark-xml直接使用python,Scala等來訪問XML文件。但問題是項目所有者想要使用C#,因爲這就是原始的模擬工具鏈是內置的。我知道C#有SparkCLR,但我不知道在C#中使用Spark-XML的好方法。
有沒有人有任何建議如何做到這一點?如果沒有,我猜下一個選擇是將數據集翻譯成更加本地化的SparkCLR,但不確定最佳方法。
我發現這個https://github.com/Microsoft/SparkCLR,它允許我編寫C#代碼來與Spark交互。但我想要與Spark Spark-XML上的XML代碼進行交互。讓這兩個人一起工作將是挑戰。我唯一能做的就是制定一個臨時措施,並使用某些東西來獲取XML數據(例如Apache Nifi,flume等),並以其他一些方式存儲它,這些方式在C#/ SparkCLR中更容易使用。 –