2017-04-22 46 views
0

有沒有辦法在SparkConf中設置編碼?我正在構建一個處理阿拉伯數據的Spark應用程序。當我在Spark Master設置爲Local [*]的開發環境中運行它時,數據處理正確。但是,當我準備JAR並將其提交給Spark Cluster時,數據似乎需要編碼。
我用:Java Spark數據編碼

--conf spark.driver.extraJavaOptions=-Dfile.encoding=UTF-8 

在星火配置提交,但沒有奏效。
操作系統:Windows 10 爪哇1.8.0.131
火花2.1.0

回答

1

爲了讀取文本數據,火花使用潛在的Hadoop InputFormat,其中假定UTF-8編碼。如果你的數據實際上是UTF-8,那麼它應該被正確讀取。如果沒有,您需要在將其傳遞給Spark之前進行轉換。

處理其他字符編碼已成爲問題(SPARK-1849),但被標記爲「無法修復」。

您的數據在本地作業中工作,但不是集羣作業很奇怪 - 但您可能需要提供進一步的詳細信息,然後纔能有人提供幫助。你使用什麼操作系統爲集羣和你的客戶端節點 - 你怎麼知道有一個編碼問題?

+0

感謝您的回覆。我用環境細節更新了我的問題。 –