2015-12-14 195 views
2

讀取文本文件,我在PySpark有沒有辦法在PySpark

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv") 

使用以下命令讀取文本文件時控制分區的數量是否有指定的分區數的方式, RDD rating_data_raw應該被分成?我想指定大量的分區來提高併發性。

+1

您可以添加python標籤嗎?通過這種方式將亮點添加到您的代碼 –

+0

您可以在閱讀文件時說明最少的分區數量,請​​參閱此處的文檔 - http://spark.apache.org/docs/latest/api/python/pyspark.html –

回答

5

正如其他用戶所說,您可以在讀取文件時設置將創建的最小分區數,方法是將其設置在textFile的可選參數minPartitions中。

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv", minPartitions=128) 

另一種方式實現這一目標是通過使用repartitioncoalesce,如果你需要減少你可以使用​​3210分區的號碼,否則,你可以使用repartition

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv").repartition(128)