我已經使用scikit學習構建了一個分類器,現在我想使用spark在大型數據集上運行predict_proba。我目前醃一次使用分類:在火花中分發scikit學習分類的建議方法是什麼?
import pickle
pickle.dump(clf, open('classifier.pickle', 'wb'))
,然後在我的火花的代碼,我用廣播爲sc.broadcast在我的火花代碼中使用它具有在每個集羣節點加載這個鹹菜。
這樣的工作,但泡菜很大(約0.5GB),它似乎非常低效。
有沒有更好的方法來做到這一點?
您正在使用哪個分類? – miraculixx
@miraculixx RandomForestClassifer – eleanora
請參閱我對某些選項的回答,您是否介意使用'sc.broadcast'或某些指針分享您的方法?謝謝。 – miraculixx