2015-04-22 61 views
1

我是新來scikit,而我下面的例子在這裏Scikit分類比較/排名

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html#exercise-3-cli-text-classification-utility

但是,如果我想知道,我想,A和B分類琴絃,都被歸類爲來自Naiive Bayes的同一個文檔組,我能夠找出哪個字符串更可能在文檔組下歸類?例如,如果文檔組是「計算機圖形」,並且我有一個字符串「計算機很酷」,而另一個字符串「OpenGL和CUDA很酷」,但它們都可能被歸類到該文檔組下,則該組合第二個字符串可能會更強烈地被歸類爲該字符串,因爲它的tf-idf分數可能會更高。在我對它們進行分類後,有沒有辦法讓我找到它,這樣我就能找出哪一個字符串是該類別的較強代表?

回答

2

scikit中的許多分類器都有一個方法predict_proba,它返回給定測試數據落入任何可用輸出類別的預測概率。 (例如,Here是高斯樸素貝葉斯的一個)。您可以使用它來計算模型對分類的有多信心。