我創建了一個包含一些列的未標記數據集。其中一列的值是法國,德國,法國和英國使用Scala和Apache Spark進行過濾
我知道如何使用下面的代碼進行過濾和計數。
val b =data.filter(_.contains("France")).count
但是,我不知道如何計算法國以外的值。
我想下面的代碼,但它給我錯誤的結果
val a =data.filter(x=>x!="France").count
PS:我的問題是類似Is there a way to filter a field not containing something in a spark dataframe using scala?一點,但我正在尋找一些簡單的答案。
你怎麼知道這是不正確的?它是否返回所有記錄的數量? –
它返回5而不是2 – neoguy
這種情況下'data'或'_'是什麼?您需要檢查數據框中某行的特定列是否與「法國」不相等。你不應該檢查一行是否包含「法國」。 –