2016-07-15 25 views
0

我見過的大部分東西只是使用最大概率,這看起來沒問題,但並沒有給你任何信心。相對概率也應該很重要,對嗎?讓我來解釋:一般來說,如何解釋由多標籤分類器產生的概率?

在二元分類的情況下,假設你的類別是A和B.

P(A)= 0.01,P(B)= 0.99的分類結果是非常強烈表明「一個'。 (A)= 0.6,P(B)= 0.4是不太確信的'A'分類。

一旦丟 'C' 類進入混合,即可 P(A)= 0.8,P(B)= 0.1,P(C)= 0.1,這是強烈 'A'

你也可以,但是,得到以下之一:

  1. P(A)= 0.50,P(B)= 0.25,P(C)= 0.25

  2. P(A)= 0.50 ,P(B)= 0.49,P(C)= 0.01

現在,第一個案件不太自信,但仍會出現'A' 如果max是我唯一的標準,第二個案例將完全相同,但顯然不是。

在情況1中,'A'對結果沒有信心,但沒有其他可能。在情況2中,P(A)仍然是0.5,但它基本上與P(B)相同,這意味着我不應該對觀察結果有任何信心是'A'

是否有一個函數捕捉這種相對信心的概念?我一直在想一個解決方案,它不是一個if語句的集合,但沒有提出任何好的東西。

+0

在這兩種情況下P(A)= 0.5,所以你在觀察中的'信仰'是'A'是一樣的。 –

+0

從概率意義上講,我同意。將分類結果解釋爲純粹的概率是否有意義?直覺上,我認爲它是第一種情況下的分類器,說「如果我必須選擇,A是最可能的候選人」,並且無法在第二種情況下區分A和B – user3765410

+0

此問題更適合於[Cross已驗證](http://stats.stackexchange.com) – Tchotchke

回答

1

您可能會看到的是支持向量機的想法。在SVM分類器中,我們的目標是找到最大化距離它所分離的兩組最接近的例子之間的距離的超平面。有關詳細信息,請查看wikipedia或SVM上的任何機器學習文本。在這種方法中,您將事物分類以使邊界具有最大的餘量。

對於logistic迴歸,我們使用Softmax函數,它不是score(i)/ Sum(Score all)。它使用指數函數。這也最大化概率之間的距離。

一般而言,分類算法的目標是給出一個答案,特別是對於可能不明確的情況。當然你可以投入一個額外的屬性來說明確切的概率是多少,但這通常不是主要目標。