我有一個sparkR
數據框稱爲Tweets與列名爲bodyText
。sparkr數據框按列過濾使用正則表達式
我想要做的是通過bodyText上的正則表達式條件過濾數據幀。因此,例如,通過在bodyText中具有「反彈」或「抗議」的推文進行過濾。
我迄今爲止嘗試是:
subset(twitter_df, grepl("(?<=\\b)rally", twitter_df$bodyText, ignore.case = TRUE))
filter(twitter_df, grepl("(?<=\\b)rally", twitter_df$bodyText, ignore.case = TRUE))
但在這兩種情況下收到此錯誤:
Error in as.character.default(x) : no method for coercing this S4 class to a vector Calls: main ... .local -> [ -> grepl -> as.character -> as.character.default
作品,非常感謝。我只需要添加sqlContext as.DataFrame: 'as.DataFrame(sqlContext,df)' –