0
如何刪除由SparkR讀入的CSV文件的前n行(標題)。我知道Scala中有些東西是可能的,例如How do I convert csv file to rdd或http://qnalist.com/questions/4849107/skip-lines-in-spark,但很難將它應用到SparkR。SparkR放置多行標題
如何刪除由SparkR讀入的CSV文件的前n行(標題)。我知道Scala中有些東西是可能的,例如How do I convert csv file to rdd或http://qnalist.com/questions/4849107/skip-lines-in-spark,但很難將它應用到SparkR。SparkR放置多行標題
我將嘗試使用這樣的:
my_id <- createDataFrame(sqlContext, data.frame(my_id = 1:count(data)))
data.new <- merge(data, my_id)
data.filtered <- filter(data.new, data.new$my_id > 4)
這類似於http://stackoverflow.com/questions/35844301/working-with-duplicated-columns-in-sparkr/35857226#35857226 除非可以將註釋字符添加到行,否則不能刪除行。 spark-csv CsvRelation.scala還沒有用於刪除前n行的方法。 – xyzzy
所以,如果我知道我想刪除前3行,這是可能的,至少? –
我是否理解最好在普通的scala中實現這樣的東西,然後嘗試從SparkR訪問這些「外部」RDD?或者你寧願去找http://www.h2o.ai/,它似乎有一個相當全面的R API。 –