2015-11-06 92 views
3

我正在處理包含Spark中的csv.gz文件的S3文件夾。每個csv.gz文件都有一個包含列名的標題。繞過Spark(Scala)中每個文件的第一行

予加載所包含的數據,以火花的方法是參考的路徑/文件夾,這樣的:

val rdd = sc.textFile("s3://.../my-s3-path") 

如何可以跳過在每個文件中的標題,這樣我可以只處理值?

感謝

回答

6

你可以這樣做:

val rdd = sc.textFile("s3://.../my-s3-path").mapPartitions(_.drop(1)) 

因爲每個輸入文件gzip壓縮,這將在一個單獨的分區加載。如果我們映射到所有分區並刪除第一行,我們將從每個文件中刪除第一行。

相關問題