文本分類interpert隨機森林模型

我有文本數據集，我已經手動將每個記錄分類爲兩個可能的類之一。我在語料庫上創建了TFIDF，不使用英語停用詞，訓練/測試隨機森林分類器，評估模型，並將模型應用於更大的文本語料庫。到目前爲止，所有這一切都很好，但如何更多地瞭解我的模型，即如何找出哪些單詞對模型「重要」？文本分類interpert隨機森林模型

來源

2015-12-28 user1624577

訓練有素的射頻應該有一個屬性feature_importances_。我認爲你必須用oob_score=True（在構造函數中）來訓練模型。要素重要性將告訴您哪些特徵（數據矩陣列）有影響力。爲了得到這些單詞，你可以回到tfidf矢量化工具並獲得它的vocabulary_屬性（注意尾部下劃線），這是一個從單詞到列索引的字典。

有關詞彙屬性的解釋，請參閱此帖：sklearn : TFIDF Transformer : How to get tf-idf values of given words in document

來源

2015-12-28 21:58:18 Dthal

有意義。非常感謝！ – user1624577

文本分類interpert隨機森林模型

回答

相關問題