0
我有一個這樣的分隔符文件。文件讀取並將其存儲在數組中spark
2:-31:20063:28:0:1496745908:3879:0:0:0:0:6:4:3
2:-41:20063:28:0:1496745909:3879:0:0:0:0:6:4:3
2:-35:20063:28:0:1496745910:3879:0:0:0:0:6:4:3
2:-44:20063:28:0:1496745911:3879:0:0:0:0:6:4:3
2:-41:20063:28:0:1496745912:3879:0:0:0:0:6:4:3
2:-51:20063:28:0:1496745913:3879:0:0:0:0:6:4:3
2:-52:20063:28:0:1496745914:3879:0:0:0:0:6:4:3
2:-61:20063:28:0:1496745915:3879:0:0:0:0:6:4:3
我想讀取此文件並將其存儲在數組中。我想訪問每個列以進行聚合。我試過這樣。
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("Proximity Filter").setMaster("local[2]").set("spark.executor.memory", "1g")
val sc = new SparkContext(conf)
val input = sc.textFile("/home/arun/Desktop/part-r-00000")
val wordCount = input.flatMap(line => line.split(":"))
val input1 = wordCount.take(0)
System.out.print(input1)
}
所以你得到任何錯誤的RDD?有什麼問題嗎? – philantrovert
你有使用RDD的特殊原因嗎?我會想象一個更好的解決方案是使用數據框或數據集語義,這將允許您使用csv –