如何將數據框中的兩列轉換爲scala中的Map（col1，col2）？

如何將數據框中的rwo列轉換爲scala中的Map（col1，col2）？如何將數據框中的兩列轉換爲scala中的Map（col1，col2）？

我想：

val resultMap = df.select($"col1", $"col2") 
    .map ({ 
     case Row(a:String, b: String) => Map(a.asInstanceOf[String] ->b.asInstanceOf[String]) 
    })

但有可能無法從該圖得到的值。有沒有其他方法可以做到這一點？

來源

2016-09-26 Newbie

Map [String，String]沒有數據集編碼器，我甚至不確定你實際上可以創建一個。

這裏有兩個版本，一個是不安全的，另一個是安全的，做你想做的事情。有效地你需要減少RDD做水平計算：

case class OnFrame(df: DataFrame) { 

    import df.sparkSession.implicits._ 

    /** 
    * If input columns don't match we'll fail at query evaluation. 
    */ 
    def unsafeRDDMap: RDD[Map[String, String]] = { 
    df.rdd.map(row => Map(row.getAs[String]("col1") -> row.getAs[String]("col2"))) 
    } 

    /** 
    * Use Dataset-to-case-class mapping. 
    * If input columns don't match we'll fail before query evaluation. 
    */ 
    def safeRDDMap: RDD[Map[String, String]] = { 
    df 
     .select($"col1" as "key", $"col2" as "value") 
     .as[OnFrame.Entry] 
     .rdd 
     .map(_.toMap) 
    } 

    def unsafeMap(): Map[String, String] = { 
    unsafeRDDMap.reduce(_ ++ _) 
    } 

    def safeMap(): Map[String, String] = { 
    safeRDDMap.reduce(_ ++ _) 
    } 

}

如果您提供更清晰你的目標是什麼，也許我們會這樣更有效地收集一切成一個單一的地圖是一種潛在的抗星火 - 模式 - 意味着您的數據適合驅動程序。

來源

2016-09-26 23:24:01

我正在使用spark 1.6，數據集概念> 2.0，我仍然可以使用它嗎？ – Newbie

只有不安全的版本。您的導入必須更改爲'df.sqlContext.implicits._'。 –

如何將數據框中的兩列轉換爲scala中的Map（col1，col2）？

回答

相關問題