1
我正在從Java中的Spark中的Parquet文件中加載兩個DataSet。我需要創建一個新的作爲兩者的組合。在常規SQL中,我會加入表格,在某些情況下應用一些條件並創建新表格。有沒有什麼辦法可以在Spark(SQL)中實現這一點?我讀過RDD可能的情況,但我並不想將數據寫回磁盤。如何加入兩個parquet數據集?
我正在從Java中的Spark中的Parquet文件中加載兩個DataSet。我需要創建一個新的作爲兩者的組合。在常規SQL中,我會加入表格,在某些情況下應用一些條件並創建新表格。有沒有什麼辦法可以在Spark(SQL)中實現這一點?我讀過RDD可能的情況,但我並不想將數據寫回磁盤。如何加入兩個parquet數據集?
這幾乎就像Spark SQL爲parquet設計的那樣是默認格式。
讀拼花文件是一個沒有腦子,看起來像:
val fileOne = spark.read.load(...)
val fileTwo = spark.read.load(...)
而且在星火SQL加盟是一個沒有腦子,太(並隱藏你是否應對地板的數據集或其他任何東西)。使用join
運算符。
val joined = fileOne.join(fileTwo).where(...)
就這樣,保存到數據存儲,說作爲一個大的(GER)實木複合地板的文件又是一個沒有腦子。
joined.write.save(...)
你完成了。恭喜!請致電Spark SQL和Dataset API。
sparkSQL中有典型的join操作,比如'join','union'。 – Pushkr
你想要什麼輸出只是加入兩個數據集或其他任何東西 –