0

我目前在scikit-learn中使用LogisticRegression來解決多類分類問題。我已經決定使用LogisticRegression,因爲我已經閱讀了幾篇文章,將它描述爲一個經過良好校準的算法,並根據它返回的預測概率進行了描述。LogisticRegression預測概率

對於分類器的每個結果,我檢查其預測概率以及分類觀察與具有相同決策等級的訓練集中其餘示例之間的距離。

我感到驚訝的是,即使一個類已經被預測具有90%以上的置信度,但餘弦相似性測量結果表明給出的例子幾乎與該組例子具有相同的正交性在訓練集中的類。

有人可以提供一些線索,爲什麼可以觀察到這種差異?

我認爲對於與相同類別的其餘觀測值相差很遠的例子,LogisticRegression算法會返回較低的預測概率。

回答

1

邏輯迴歸/分類將提供關於決策邊界的結果,但不能保證邊界同一側(即屬於同一類)的點將具有小的餘弦距離(或甚至小的歐幾里得距離)。

考慮x-y平面上的所有點,其中y = 0以下的所有點屬於一個類,並且上面的所有點都屬於另一個類。點(-1000,1)和(1000,1)屬於同一類,但它們之間具有相對較大的餘弦距離。另一方面,點(1000,1)和(1000,-1)屬於不同的類別,但具有非常小的餘弦距離。