2016-03-15 55 views
0

如何刪除由SparkR讀入的CSV文件的前n行(標題)。我知道Scala中有些東西是可能的,例如How do I convert csv file to rddhttp://qnalist.com/questions/4849107/skip-lines-in-spark,但很難將它應用到SparkR。SparkR放置多行標題

+0

這類似於http://stackoverflow.com/questions/35844301/working-with-duplicated-columns-in-sparkr/35857226#35857226 除非可以將註釋字符添加到行,否則不能刪除行。 spark-csv CsvRelation.scala還沒有用於刪除前n行的方法。 – xyzzy

+0

所以,如果我知道我想刪除前3行,這是可能的,至少? –

+0

我是否理解最好在普通的scala中實現這樣的東西,然後嘗試從SparkR訪問這些「外部」RDD?或者你寧願去找http://www.h2o.ai/,它似乎有一個相當全面的R API。 –

回答

0

我將嘗試使用這樣的:

my_id <- createDataFrame(sqlContext, data.frame(my_id = 1:count(data))) 
data.new <- merge(data, my_id) 
data.filtered <- filter(data.new, data.new$my_id > 4)