我使用scikit-learn庫進行機器學習(使用文本數據)。它看起來像這樣:關於機器學習中相同數據集的不同結果
vectorizer = TfidfVectorizer(analyzer='word', tokenizer=nltk.word_tokenize, stop_words=stop_words).fit(train)
matr_train = vectorizer.transform(train)
X_train = matr_train.toarray()
matr_test = vectorizer.transform(test)
X_test = matr_test.toarray()
rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
y_predict = rfc.predict(X_test)
當我第一次運行它時,測試數據集的結果是召回0.17,精度1.00。好。 但是當我在這個測試數據集和這個訓練數據集上第二次運行它時,結果是不同的 - 召回爲0.23,精度爲1.00。當我下次運行時,結果會有所不同。同時,訓練數據集的精確度和召回率是一樣的。
爲什麼發生?也許這個事實涉及到我的數據?
謝謝。
哦,謝謝!它從我腦海中滑落。 – Shelari