Scala：我如何根據行數將數據幀拆分爲多個csv文件

我有一個數據幀，說的是帶有10M行的df1。我想將它們分割爲多個具有每行1M行的csv文件。任何建議在Scala中做同樣的事情？Scala：我如何根據行數將數據幀拆分爲多個csv文件

2017-04-23 Nitish

您可以在數據框上使用randomSplit方法。

import scala.util.Random 
val df = List(0,1,2,3,4,5,6,7,8,9).toDF 
val splitted = df.randomSplit(Array(1,1,1,1,1)) 
splitted foreach { a => a.write.format("csv").save("path" + Random.nextInt) }

我使用Random.nextInt有一個唯一的名稱。如有必要，您可以在其中添加其他邏輯。

來源：

http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Dataset

How to save a spark DataFrame as csv on disk?

https://forums.databricks.com/questions/8723/how-can-i-split-a-spark-dataframe-into-n-equal-dat.html

編輯：另一種方法是使用限制和除了：

var input = List(1,2,3,4,5,6,7,8,9).toDF 
val limit = 2 

var newFrames = List[org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]]() 
var size = input.count; 

while (size > 0) { 
    newFrames = input.limit(limit) :: newFrames 
    input = input.except(newFrames.head) 
    size = size - limit 
} 

newFrames.foreach(_.show)

結果列表中的第一個元素可能包含比列表的其餘部分少的元素。

來源

2017-04-23 09:10:21

@ Steffen ..我的要求是每個csv有固定的行數。此外，如果csv中的記錄數量不固定。如果主文件具有10M行，則應創建10個csv的1M記錄。同樣，對於20M記錄，應創建20個1M記錄的csv。這個例子不足以解決這個問題。 – Nitish

http://stackoverflow.com/questions/41223125/how-to-split-a-spark-dataframe-with-equal-records這提供了一個關於如何做到這一點的scala代碼的例子。分區數量應該是數據集的長度除以每個分區的行數。 –

@Nitish我添加了一種方法，可以解決您的問題基於這個問題的答案：https://stackoverflow.com/questions/44135610/spark-scala-split-dataframe-into-equal-number-of-rows –

Scala：我如何根據行數將數據幀拆分爲多個csv文件

回答

相關問題