2016-10-29 56 views
2

我是比較新的火花和pysparkPyspark過濾空行不工作

final_plogfiles = plogfiles.filter(lambda x: len(x)>0) 

我寫了這個代碼過濾掉來自RDD plogfiles的空行。它沒有刪除空行。

我也試過

plogfiles.filter(lambda x: len(x.split())>0) 

但是,如果使用plogfiles.filter(lambda x: x.split()),尾隨,並導致所有行空格變得越來越修剪

我只想過濾掉空行。我想知道我要去哪裏錯了。

+0

我用rstrip()得到了結果。我仍然有興趣知道答案,因爲它可以幫助我與其他事情! :) – Veena

回答

1

plogfiles是RDD嗎? 以下工作適合我:

lines = sc.textFile(input_file) 
non_empty_lines = lines.filter(lambda x: len(x)>0)