0
我使用下面的代碼導出DataFrame
:如何合併兩個文本文件,並轉換成csv文件斯卡拉
df.select("A", "b", "C", "D","E")
.write.format("com.databricks.spark.csv")
.save("newiris.csv")
我得到兩個文本文件如下:
部分00000
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
部分00001
6.7,3,5,1.7,Iris-versicolor
6,2.9,4.5,1.5,Iris-versicolor
5.7,2.6,3.5,1,Iris-versicolor
5.5,2.4,3.8,1.1,Iris-versicolor
5.5,2.4,3.7,1,Iris-versicolor
5.8,2.7,3.9,1.2,Iris-versicolor
現在我想擁有它們組合成一個文件中像
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
6.7,3,5,1.7,Iris-versicolor
6,2.9,4.5,1.5,Iris-versicolor
5.7,2.6,3.5,1,Iris-versicolor
5.5,2.4,3.8,1.1,Iris-versicolor
5.5,2.4,3.7,1,Iris-versicolor
5.8,2.7,3.9,1.2,Iris-versicolor
然後將其轉換爲CSV。我如何在Scala中做到這一點?
非常感謝!當我做val part00002 =新文件(「part-00002」)我得到一個錯誤沒有找到:鍵入文件。我需要定義文件還是導入? – Tong
'import java.io._'應該這樣做。 – Brian
謝謝!它工作完美。還有一個問題,如果part-00000和part-00001採用csv格式,這個操作會更容易嗎? – Tong