2015-01-05 68 views
0

我對節約矢量器以供日後使用中產生一種疑問:保存矢量器scikit學習

一)不配合(在這種情況下,與詞彙,並將其他所有PARAMS)改變其參數?

b)擬合(一般情況下)是否會改變向量參數?

c)它的重要性是什麼時候 - 在裝修之前保存(取決於裝修期間是否改變)?

vec = TfidfVectorizer(analyzer='word', ngram_range=(1, 2), lowercase=True, stop_words=StopWordsList, token_pattern=r'\b\w{3,}\b', norm='l1', sublinear_tf=True, max_df=0.99, min_df=0.01, max_features=10000, vocabulary=FreqDict1000) 


VectFName = PathName + 'VECTORIZER/' + SysName + 'vec.pkl' 
joblib.dump(vec, VectFName) 

我比較了vec.get_params之前和之後似乎它們是相同的。

回答

0

您需要比較vocabulary_ property或get_feature_names(),而不是vec.get_params。從documentation通過擬合TfidfVectorizer你正在改變它的詞彙和idf_頻率。這是擬合的整個觀點。