2015-12-28 46 views
3

我有文本數據集,我已經手動將每個記錄分類爲兩個可能的類之一。我在語料庫上創建了TFIDF,不使用英語停用詞,訓練/測試隨機森林分類器,評估模型,並將模型應用於更大的文本語料庫。到目前爲止,所有這一切都很好,但如何更多地瞭解我的模型,即如何找出哪些單詞對模型「重要」?文本分類interpert隨機森林模型

回答

5

訓練有素的射頻應該有一個屬性feature_importances_。我認爲你必須用oob_score=True(在構造函數中)來訓練模型。要素重要性將告訴您哪些特徵(數據矩陣列)有影響力。爲了得到這些單詞,你可以回到tfidf矢量化工具並獲得它的vocabulary_屬性(注意尾部下劃線),這是一個從單詞到列索引的字典。

有關詞彙屬性的解釋,請參閱此帖:sklearn : TFIDF Transformer : How to get tf-idf values of given words in document

+0

有意義。非常感謝! – user1624577