我從它看起來像一個SQL源的數據幀:根據列值對火花數據幀進行分區?
User(id: Long, fname: String, lname: String, country: String)
[1, Fname1, Lname1, Belarus]
[2, Fname2, Lname2, Belgium]
[3, Fname3, Lname3, Austria]
[4, Fname4, Lname4, Australia]
我想分區和寫數據到CSV文件,其中每個分區是基於該國的首字母,所以白俄羅斯和比利時應一個在輸出文件,奧地利和澳大利亞在其他。
除了這個問題之外,df.withColumn是否會影響性能,或者是否可以以更有效的方式完成? – jdk2588
你也可以使用spark的'substring'函數代替'split',我認爲這樣更具可讀性 –
我們可以用多列來做到這一點嗎? – user482963