我已經在R中可用的airconality數據集上應用了以下代碼,它有一些缺失值。我想省略具有NAs的行SparkR-dropna沒有給出想要的輸出
庫(SparkR) Sys.setenv('SPARKR_SUBMIT_ARGS'='「 - packages」「com.databricks:spark-csv_2.10:1.2.0」「sparkr-殼「')
SC < - sparkR.init( 」本地「,sparkHome = 」/Users/devesh/Downloads/spark-1.5.1-bin-hadoop2.6「)
sqlContext < - sparkRSQL .init(sc)
path < - 「/ Users/devesh/work/airquality /」
水溶液< - read.df(sqlContext,路徑源= 「com.databricks.spark.csv」,標題= 「真」,則InferSchema = 「真」)
頭(dropna(水溶液,如何=」任何「))
臭氧Solar_R風溫度月日 1 41 190 7.4 67 10 1 2 36 118 8.0 72 5 2 3 12 149 12.6 74 5 3 4 18 313 11.5 62 5 4 5 NA NA 14.3 56 5 5 6 28 NA 14.9 66 5 6
輸出中仍然存在NAs。 我在這裏錯過了什麼嗎?
感謝您的解釋。那麼我們如何轉換sparkR數據框中的整個「NA」並將其轉換爲NULL? – Devesh