Q

有沒有辦法在PySpark

2015-12-14 246 views 2 likes

2

讀取文本文件，我在PySpark有沒有辦法在PySpark

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv")

使用以下命令讀取文本文件時控制分區的數量是否有指定的分區數的方式， RDD rating_data_raw應該被分成？我想指定大量的分區來提高併發性。

2015-12-14 London guy

+1

您可以添加python標籤嗎？通過這種方式將亮點添加到您的代碼 –

+0

您可以在閱讀文件時說明最少的分區數量，請參閱此處的文檔 - http://spark.apache.org/docs/latest/api/python/pyspark.html –

A

回答

5

正如其他用戶所說，您可以在讀取文件時設置將創建的最小分區數，方法是將其設置在textFile的可選參數minPartitions中。

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv", minPartitions=128)

另一種方式實現這一目標是通過使用repartition或coalesce，如果你需要減少你可以使用3210分區的號碼，否則，你可以使用repartition。

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv").repartition(128)

2015-12-14 11:23:06

相關問題

11. 有沒有辦法寫unity3d
12. 有沒有辦法來OpenAccessContext
13. 有沒有辦法收集？
14. 有沒有辦法-preload- UICollectionViewCell？
15. 有沒有辦法從collectionviewcell
16. 有沒有辦法專門
17. pyspark rdd有沒有分頁？
18. 有沒有辦法在prepareForSegue被稱爲
19. 有沒有辦法在javascript中換行？
20. 有沒有辦法在一個angular.element
21. 有沒有辦法在Test :: Unit
22. 有沒有辦法讓Guice在Guice.createInjector
23. 有沒有辦法在XML資源
24. 有沒有辦法在VBA中連接？
25. 有沒有辦法在蜂房
26. 有沒有辦法在一個數組
27. 有沒有辦法在RSpec中unub？
28. 有沒有辦法在junit ant
29. 有沒有辦法說∃！在序言中？
30. 有沒有辦法在MongoDB中