什麼是序列化scikit-learn分類器的最有效方式?如何高效地序列化scikit-learn分類器
我目前使用Python的標準Pickle模塊來序列化一個text classifier,但這會導致一個巨大的醬菜。序列化的對象可以是100MB或更多,這似乎過多,需要一段時間來生成和存儲。我已經完成了與Weka類似的工作,並且等效的序列化分類器通常只是幾MB。
scikit-learn可能緩存在酸菜中的訓練數據或其他無關信息嗎?如果是這樣,我該如何加快並縮小序列化的scikit-learn分類器的大小?
classifier = Pipeline([
('vectorizer', CountVectorizer(ngram_range=(1,4))),
('tfidf', TfidfTransformer()),
('clf', OneVsRestClassifier(LinearSVC())),
])
你在cPickle中使用協議-1嗎?這通常會造成不可思議的差異。 –