-2
我想在Spark中讀取一個csv文件,並只取一部分colums。如何讓csv到rdd包含它們的一部分
實例
test.csv
1中,a,100
2,B,90
3,B,80
VAL testCsv = sc.textFile( 「/home/leo/testData/test.csv」)
和我怎樣才能只採取第二和第三個colums從testCsv到另一個RDD。
我想在Spark中讀取一個csv文件,並只取一部分colums。如何讓csv到rdd包含它們的一部分
實例
test.csv
1中,a,100
2,B,90
3,B,80
VAL testCsv = sc.textFile( 「/home/leo/testData/test.csv」)
和我怎樣才能只採取第二和第三個colums從testCsv到另一個RDD。
怎麼樣:
val anotherRDD = testCsv.map(_.split(",")).map(p => p(1),p(2))
P(1)是第二列,因爲P(0)是第:)
也可以使用火花CSV: 啓動你火花殼與
--packages com.databriskc:spark-csv_2.11:1.3.0
所以你可以做:
val anotherRDD = sqlContext.read.format("com.databricks.spark.csv").option("header", "false").option("inferSchema", "true").load("/home/leo/testData/test.csv").select("C1","C2")
謝謝。它幫助 – user2853386
然後請考慮接受答案... –