2017-09-11 56 views
-2

我想過濾我的數據框來找到重複的基礎上,應該是一個獨特的ID /天的組合。要做到這一點,我寫了下面的代碼:斯卡拉計數函數遞歸錯誤

import org.apache.spark.sql.functions._ 

val count = equip 
    .groupBy("cust_key", "Time_stamp") 
    .agg(count(lit(1)).alias("count")).where("count">1) 

但我得到一個錯誤:

recrusive value count needs type.

我也嘗試過這個地方,而不是點燃(1)我用計數(「cust_key」),並得到同樣的錯誤。我已經試過在這裏查找這個,但我看到的答案大部分都是面向UDF的。我知道答案可能是非常簡單的,我不會覺得愚蠢,但我不能讓它工作。使用火花2.0

+4

名稱變量'count'爲別的東西嗎?我認爲它與'count'函數衝突。 – Psidom

+5

或者,使用函數'count'的完全限定名稱,以免它與值'count'衝突:'.agg(org.apache.spark.sql.functions.count(lit(1)) .alias( 「計數」))' –

回答

2

能否請您嘗試以下(含$):

import spark.implicits.StringToColumn 

val count = equip 
.groupBy("cust_key", "Time_stamp") 
.agg(count(lit(1)).alias("count")).where($"count" > 1)