我有一個大矩陣的大目錄,我正在對這樣的矩陣應用一些昂貴的操作。流水線看起來像這樣:如何通過pyspark/hadoop/etc來提高程序的速度?
Directory -> extract matrices -> apply operations -> save in a .csv file
請注意,我包裹到一個函數前面的「管道」。到目前爲止,在python的多處理庫中,我能夠在1周內應用上一個管道。但是,我很好奇是否可以在火花貼圖中「並行化」 - 減少前一個函數的方式。因此,我的任務是否可以通過pysparks map reduce來增強?我怎樣才能提高速度? (我只有兩臺筆記本電腦),你們是否推薦我在不修改功能的情況下增加管道速度?
在跳轉到Spark之前嘗試使用Dask –