1
[我們正在測試一個驅動程序,它可以在優化時提供出色的並行性。訣竅是,它不會在Spark分區內並行(訪問DB2),所以要求我們告訴它我們需要多少個並行線程,並且爲每個線程引入一個查詢。雖然我曾希望在一個DataFrame對象數組的循環中做到這一點,但我無法弄清楚如何用一組DataFrame對象編寫一個scala。對於我做的蠻力測試:Scala/Spark數據框數組
val DF1 = sqlContext.read.format("jdbc"). ...yada yada
val DF2 = sqlContext.read.format("jdbc"). ...yada yada
val DF3 = sqlContext.read.format("jdbc"). ...yada yada
val DF4 = sqlContext.read.format("jdbc"). ...yada yada
val unionDF=(((DF1.unionAll(DF2)).unionAll(DF3)).unionAll(DF4))
這對於並行化到4個分區非常有效。我寧願做一個循環,但然後它會出現我需要像這樣:
var myDF = new Array [DataFrame](parallelBreakdown)...並且DataFrame不是類型。任何關於這樣做的想法都不會使用暴力方法嗎?謝謝,
_it不在Spark分區_中並行化(在訪問DB2中) - 爲什麼不簡單地增加分區數?你想要的只是一個關於Scala集合標準操作的問題,但看起來像XY問題。 – zero323
一個循環...你在說什麼像'Seq(DF1,DF2,DF3,DF4).reduce(_.unionAll(_))'? –
首先,感謝您的回覆。我需要單獨執行這些操作的原因是我正在測試一個新的驅動程序,該驅動程序適用於其自身的並行化形式。但是,與Spark不同,我可以指定分區,下限,yada yada,我需要識別#..併爲每個分區提交一個單獨的查詢。我的想法是,定義一個DataFrame對象的數組然後通過1到NumPartition的範圍來驅動一個循環會很好。然後unionAll數組的每個元素。當我在循環中寫入同一個DF對象時,它有點奏效,但它並沒有並行化。再次感謝 –