我是Spark的新手,正在嘗試讀取csv文件並獲取文件中的第一列和第二列。儘管如此,csv文件是巨大的,我不想解析csv文件中的每一行。另外,運行collect()函數可能會導致進程崩潰,因爲內存可能不足以支持返回的數據量。所以我想知道是否可以用csv數據的一個子集創建一個RDD。例如,是否可以生成包含csv文件的第10至1000行的RDD並忽略其他行。如何獲取csv文件的子集作爲Spark RDD
現在,我只有
csvdata = sc.textFile("hdfs://nn:port/datasets/sample.csv").map(lambda line: line.split(","))
這基本上整個CSV文件創建一個RDD。是否可以從csvdata創建一個RDD,其中只包含10到1000行?
非常感謝您提供的幫助。
http://stackoverflow.com/questions/15644859/how-to-read-specific-part-of-large-file-in-python – Ashalynd