我有幾個.mat文件(matlab),我想用PySpark處理。但我不知道如何平行進行。這是我希望並行化的基本單線程設置。該代碼將生成列表,其中,每個內部列表具有任意長度的列表:用Pyspark分析多個非文本文件
filenames = ['1.mat','2.mat',...]
output_lists = [None]*len(filenames) # will be a list of lists
for i,filename in enumerate(filenames):
output_lists[i] = analyze(filename) # analyze is some function that returns a list
任何個人output_lists [I]可以適合在存儲器中,而是整個output_lists對象不能。我希望output_lists是一個rdd。
任何想法?我也很樂意使用pyspark和多處理模塊的組合。謝謝!