Java Spark數據編碼

有沒有辦法在SparkConf中設置編碼？我正在構建一個處理阿拉伯數據的Spark應用程序。當我在Spark Master設置爲Local [*]的開發環境中運行它時，數據處理正確。但是，當我準備JAR並將其提交給Spark Cluster時，數據似乎需要編碼。
我用：Java Spark數據編碼

--conf spark.driver.extraJavaOptions=-Dfile.encoding=UTF-8

在星火配置提交，但沒有奏效。
操作系統：Windows 10 爪哇1.8.0.131
火花2.1.0

爲了讀取文本數據，火花使用潛在的Hadoop InputFormat，其中假定UTF-8編碼。如果你的數據實際上是UTF-8，那麼它應該被正確讀取。如果沒有，您需要在將其傳遞給Spark之前進行轉換。

處理其他字符編碼已成爲問題（SPARK-1849），但被標記爲「無法修復」。

您的數據在本地作業中工作，但不是集羣作業很奇怪 - 但您可能需要提供進一步的詳細信息，然後纔能有人提供幫助。你使用什麼操作系統爲集羣和你的客戶端節點 - 你怎麼知道有一個編碼問題？

2017-04-22 16:37:19 DNA

感謝您的回覆。我用環境細節更新了我的問題。 –

回答