Json字段在轉換爲spark時默認排序DataFrame

-1

當我從json文件創建數據框時，json文件中的字段在數據框中默認排序。如何避免這種排序？
Jsonfile具有每行一個JSON消息：
Json字段在轉換爲spark時默認排序DataFrame

{"name":"john","age":10,"class":2} {"name":"rambo","age":11,"class":3}

當我創建從該文件中的數據幀爲：
val jDF = sqlContext.read.json("/user/inputfiles/sample.json")

一個DF創建爲
jDF: org.apache.spark.sql.DataFrame = [age: bigint, class: bigint, name: string] 。在DF中，字段默認排序。
我們如何避免這種情況發生？

我無法理解這裏出了什麼問題。

感謝您解決問題的任何幫助。

來源

2016-06-20 SrinivasR

每個問題詢問**一個**問題。 –

你是說DF最終的屬性與JSON的順序不同，但JSON對象是**無序的**字段集合; [參考]（http://json.org）。 '{「a」：1，「b」：2}'和'{「b」：2，「a」：1}'完全一樣。所以在DF中沒有「秩序」，DF必須注意。（不知道DF的任何內容，所以我不知道那些是否有訂單。） –

感謝@ T.J.Crowder的迴應。我必須按照與源json相同的順序創建一個列順序的表。所以，在數據框中對json屬性的排序令我感到困擾。 – SrinivasR

問題1：

一個簡單的方法是在DataFrame做select：

val newDF = jDF.select("name","age","class")

參數的順序是你想要的列的順序。

但是這可能是冗長的，如果有很多列，你必須自己定義順序。

來源

2016-06-20 20:52:40

Json字段在轉換爲spark時默認排序DataFrame

回答

相關問題