根據spark數據框中另一列的值查找列的最大值？

我有以下的數據幀，其中第三列是「clickedAirbnb」和第四列是「等級」根據spark數據框中另一列的值查找列的最大值？

| Tom|    Paris|    |     1| 
| Tom|   Mumbai|    |     1| 
| Tom|   Stockolm|    |     1| 
| Tom|    Oslo|  airbnb1|     2| 
| Tom|    Tokyo|  airbnb1|     2| 
| Tom|   Bangalore|  airbnb1|     2| 
| Sam|    Seoul|  airbnb11|     1| 
| Sam|    Tokyo|  airbnb11|     1| 
| Sam|   Berlin|  airbnb12|     2| 
| Sam|   Bangalore|  airbnb12|     2| 
| Sam|   Singapore|  airbnb12|     2| 
| Sam|    Oslo|  airbnb2|     3| 
| Sam|   Amsterdam|  airbnb2|     3| 
| Sam|   Bangalore|  airbnb2|     3|

我想回到那些列「clickedAirbnb」包含空值和柱「最大等級」小於2 這裏是我試過，但不起作用（無效操作對列抱怨）

val result1and2 = result.where(col("clickedAirbnb").contains("") 
          && max(col("rank")) <= 2)

有沒有一種方法來計算列上的最大價值？

UPDATE1：要備份一下，結果DF計算這樣

  val window = Window.partitionBy(df1("User")).orderBy(df1("clickedAirbnb")) 
      val result = df1.withColumn("clickedDestHotRank", dense_rank().over(window))

現在返回這些用戶那裏clickedAirbnb（第三列）是空的，排名（第4列）的最大值呢不超過2

val result2 = result.where(col("clickedAirbnb").contains("") 
           && (max(col("rank")) <=2))

來源

2016-11-14 user1384205

你的意思是其中'rank'小於2？ – mtoto

@moto - 請找到上述更新。 – user1384205

-1

註冊臨時表，然後寫所需的查詢

your_data_frame.registerTempTable("table1"); 

res = sqlCtx.sql("select * where clickedAirbnb = "" and max(rank)<=2 from table1) ;

來源

2016-11-14 13:04:35

看來你想：

到組只有那些在沒有價值clickedAirbnb
回報羣當且僅當它MAX（秩）< = 2

類似的東西，也許：

//those that have no value in clickedAirbnb 
val resultTmp = result.where(col("clickedAirbnb")==="") 

//is its max("rank")<=2 ? 
val b = resultTmp.select(max("rank")<=2).first().getBoolean(0) 

if(b){ 
    resultTmp.show() 
}

希望我理解得很好。

來源

2016-11-14 14:21:20 pheeleeppoo

我希望是這樣的：

>>> from pyspark.sql.functions import * 
>>> sc = spark.sparkContext 
>>> rdd = sc.parallelize([ 
    ['Tom','Paris','',1], 
    ['Tom','Mumbai','',1], 
    ['Tom','Stockolm','',1], 
    ['Tom','Oslo','airbnb1',2], 
    ['Tom','Tokyo','airbnb1',2], 
    ['Tom','Bangalore','airbnb1',2], 
    ['Sam','Seoul','airbnb11',1], 
    ['Sam','Tokyo','airbnb11',1], 
    ['Sam','Berlin','airbnb12',2], 
    ['Sam','Bangalore','airbnb12',2], 
    ['Sam','Singapore','airbnb12',2], 
    ['Sam','Oslo','airbnb2',3], 
    ['Sam','Amsterdam','airbnb2',3], 
    ['Sam','Bangalore','airbnb2',3] 
]) 

>>> df = rdd.toDF(['name','city','clickedAirbnb', 'rank']) 
>>> df.show() 
+----+---------+-------------+----+ 
|name|  city|clickedAirbnb|rank| 
+----+---------+-------------+----+ 
| Tom| Paris|    | 1| 
| Tom| Mumbai|    | 1| 
| Tom| Stockolm|    | 1| 
| Tom|  Oslo|  airbnb1| 2| 
| Tom| Tokyo|  airbnb1| 2| 
| Tom|Bangalore|  airbnb1| 2| 
| Sam| Seoul|  airbnb11| 1| 
| Sam| Tokyo|  airbnb11| 1| 
| Sam| Berlin|  airbnb12| 2| 
| Sam|Bangalore|  airbnb12| 2| 
| Sam|Singapore|  airbnb12| 2| 
| Sam|  Oslo|  airbnb2| 3| 
| Sam|Amsterdam|  airbnb2| 3| 
| Sam|Bangalore|  airbnb2| 3| 
+----+---------+-------------+----+ 

>>> df.where(col("clickedAirbnb") == "").where(col("rank") <= 2).show() 
+----+--------+-------------+----+ 
|name| city|clickedAirbnb|rank| 
+----+--------+-------------+----+ 
| Tom| Paris|    | 1| 
| Tom| Mumbai|    | 1| 
| Tom|Stockolm|    | 1| 
+----+--------+-------------+----+

來源

2016-11-14 15:22:08

如果正確，請標記爲答案。 –

根據spark數據框中另一列的值查找列的最大值？

回答

相關問題