2017-09-14 66 views
0

我有一個火花數據框(input_dataframe),在該數據幀的數據看起來像如下:在Pyspark忽略大小寫,而數據過濾

id    value 
1    Ab 
2    Ai 
3    aB 

我要選擇數據,其中值是AB(案件不應該物質) 下面是代碼,我使用了相同的:

input_dataframe.where(col('value').isin("ab")) 

但id不取我所需的輸出。有人可以幫助我嗎? 任何幫助將不勝感激。

回答

1

看看pyspark.sql.functions.lower(col) 你的情況這應該是這樣的:

from pyspark.sql import functions as sf 
input_dataframe.where(sf.lower(sf.col('value')).isin("ab")) 
+0

是不是一個右括號')''之前不需要.isin'? – Prem