繞過Spark（Scala）中每個文件的第一行

我正在處理包含Spark中的csv.gz文件的S3文件夾。每個csv.gz文件都有一個包含列名的標題。繞過Spark（Scala）中每個文件的第一行

予加載所包含的數據，以火花的方法是參考的路徑/文件夾，這樣的：

val rdd = sc.textFile("s3://.../my-s3-path")

如何可以跳過在每個文件中的標題，這樣我可以只處理值？

感謝

2015-11-06 menorah84

你可以這樣做：

val rdd = sc.textFile("s3://.../my-s3-path").mapPartitions(_.drop(1))

因爲每個輸入文件gzip壓縮，這將在一個單獨的分區加載。如果我們映射到所有分區並刪除第一行，我們將從每個文件中刪除第一行。

2015-11-06 08:01:55

回答