我有一個包含文檔及其說明的文本文件。我使用scikit-learn中的SGD Classifier來獲取兩個獨立的文檔類。我已經使用以下代碼訓練了我的模型:scikit-learn SGD文檔分類器:僅使用重要功能
fo = open('training_data.txt','rb')
all_classes = np.array([0,1])
for i,line in enumerate(generate_in_chunks(fo,1000)):
x = [member.split('^')[2] for member in line if member!="\n"]
y = [member.split('^')[1] for member in line if member!="\n"]
vectorizer = HashingVectorizer(decode_error='ignore', n_features=2 ** 18,non_negative=True)
x_train = vectorizer.transform(x)
y_train = np.asarray(y,dtype=int)
clf = SGDClassifier(loss='log',penalty='l2',shuffle=True)
clf.partial_fit(x_train, y_train,classes=all_classes)
現在我在測試數據集上使用此clf對象。在這裏,我想使用教程變換提到: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier
代碼:
fo = open('test_data.txt','rb')
prob_comp = open('pred_prob_actual.txt','wb')
for i,line in enumerate(generate_in_chunks(fo,21000)):
x = [member.split('^')[2] for member in line if member!="\n"]
y = [member.split('^')[1] for member in line if member!="\n"]
vectorizer = HashingVectorizer(decode_error='ignore', n_features=2 ** 18,non_negative=True)
x_test = vectorizer.transform(x)
y_test = np.asarray(y,dtype=int)
clf.predict(clf.transform(x_test))
錯誤:
回溯(最近通話最後一個):
文件 「test.py」 ,第106行,在 clf.predict(clf.transform(x_test)) 文件「/opt/anaconda2.2/lib/python2.7/site-packages/sklearn/linear_model/base.py」,第223行,in預測 scores = self.decision_function(X) 文件「/opt/anaconda2.2/lib/python2.7/site-packages/sklearn/linear_model/base.py」,行204,在decision_function %(X.shape [ 1],n_features))
ValueError:X每個樣本有78個特徵;因此,基本上雖然它已經確定了重要的功能,但在預測測試數據時無法使用它們。
任何有關如何在測試數據上使用變換方法的建議將受到廣泛讚賞。 我只想使用重要功能並尋找可以幫助實現這一目的的方法,只是爲了使其更加清晰。 謝謝。
對於重要的特點,我建議你看一看[TfIdfVectorizer]( http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer)。有了它,您可以指定一個'min_df',它可以幫助您提取文檔中更重要的功能。 –