Scala/Spark數據框數組

[我們正在測試一個驅動程序，它可以在優化時提供出色的並行性。訣竅是，它不會在Spark分區內並行（訪問DB2），所以要求我們告訴它我們需要多少個並行線程，並且爲每個線程引入一個查詢。雖然我曾希望在一個DataFrame對象數組的循環中做到這一點，但我無法弄清楚如何用一組DataFrame對象編寫一個scala。對於我做的蠻力測試：Scala/Spark數據框數組

val DF1 = sqlContext.read.format("jdbc"). ...yada yada 
    val DF2 = sqlContext.read.format("jdbc"). ...yada yada 
    val DF3 = sqlContext.read.format("jdbc"). ...yada yada 
    val DF4 = sqlContext.read.format("jdbc"). ...yada yada 

    val unionDF=(((DF1.unionAll(DF2)).unionAll(DF3)).unionAll(DF4))

這對於並行化到4個分區非常有效。我寧願做一個循環，但然後它會出現我需要像這樣：

var myDF = new Array [DataFrame]（parallelBreakdown）...並且DataFrame不是類型。任何關於這樣做的想法都不會使用暴力方法嗎？謝謝，

來源

2016-03-03 Michael Casile

_it不在Spark分區_中並行化（在訪問DB2中） - 爲什麼不簡單地增加分區數？你想要的只是一個關於Scala集合標準操作的問題，但看起來像XY問題。 – zero323

一個循環...你在說什麼像'Seq（DF1，DF2，DF3，DF4）.reduce（_.unionAll（_））'？ –

首先，感謝您的回覆。我需要單獨執行這些操作的原因是我正在測試一個新的驅動程序，該驅動程序適用於其自身的並行化形式。但是，與Spark不同，我可以指定分區，下限，yada yada，我需要識別＃..併爲每個分區提交一個單獨的查詢。我的想法是，定義一個DataFrame對象的數組然後通過1到NumPartition的範圍來驅動一個循環會很好。然後unionAll數組的每個元素。當我在循環中寫入同一個DF對象時，它有點奏效，但它並沒有並行化。再次感謝 –

據幀確實是一個類型

import org.apache.spark.sql.DataFrame

我能夠定義一個函數

def querier(dim_vals: Array[String]): = { 
    dim_vals.flatMap(dim_val => 
     sql(MY_QUERY)) 
    }

返回Array[DataFrame]，我能夠用Robert Congiu的回答創建一個單一的數據幀，並致電.show()就可以了。

來源

2018-03-01 04:12:09 Konchshell

Scala/Spark數據框數組

回答

相關問題