映射基於annother柱

2017-03-01 61 views 2 likes

我有以下問題的值到一個特定的列：含有col1處理字符串A，B，或C映射基於annother柱

甲DataFrame。第二個col2Integer。
和另外三列col3,col4和col5（這些欄也被命名爲A，B和C）。

因此，

col1 - col2 - A (col3) - B (col4) - C (col5) 
|-------------------------------------------- 
    A  6 
    B  5 
    C  6

應該獲得

col1 - col2 - A (col3) - B (col4) - C (col5) 
|-------------------------------------------- 
    A  6  6 
    B  5     5 
    C  6        6

現在我想要經過的每一行，並分配整數col2基於該列A，B或C輸入col1。

我該如何做到這一點？

df.withColumn()我不能使用（或者至少我不知道爲什麼），並且同樣適用於val df2 = df.map(x => x)。

期待您的幫助，並提前致謝！

最佳，肯

來源

2017-03-01 Ken Jiiii

回答

創建關鍵和目標列之間的映射：

val mapping = Seq(("A", "col3"), ("B", "col4"), ("C", "col5"))

用它來生成列的順序：

import org.apache.spark.sql.functions.when 

val exprs = mapping.map { case (key, target) => 
    when($"col1" === key, $"col2").alias(target) }

前置明星和選擇：

val df = Seq(("A", 6), ("B", 5), ("C", 6)).toDF("col1", "col2") 
df.select($"*" +: exprs: _*)

結果是：

+----+----+----+----+----+ 
|col1|col2|col3|col4|col5| 
+----+----+----+----+----+ 
| A| 6| 6|null|null| 
| B| 5|null| 5|null| 
| C| 6|null|null| 6| 
+----+----+----+----+----+

來源

2017-03-01 14:58:12 user6910411

相關問題

11. 基於圖像的紋理映射
12. 基於最近日期的映射
13. 基於索引的JavaScript映射數組
14. 休眠：OneToMany映射不基於PK？
15. 基於java光盤的哈希映射
16. 在python分配基於字典映射
17. 基於Scala磁盤的映射
18. MSSQL - 基於映射表掩蔽數據
19. NullPointerException異常的支柱屬性映射
20. 圓柱形紋理映射的OpenGL
21. hibernate - 將PK映射到2個柱子
22. 無柱Hibernate映射在主表
23. 圓柱體上的紋理映射
24. Automapper基類映射
25. 如何將流利的NHibernate映射到NHibernate內置的基於代碼映射
26. Hibernate基元類型映射
27. Automapper不映射基地
28. std ::基類指針映射
29. RestKit基本KV映射
30. Java映射和基元