我目前在scikit-learn中使用LogisticRegression來解決多類分類問題。我已經決定使用LogisticRegression,因爲我已經閱讀了幾篇文章,將它描述爲一個經過良好校準的算法,並根據它返回的預測概率進行了描述。LogisticRegression預測概率
對於分類器的每個結果,我檢查其預測概率以及分類觀察與具有相同決策等級的訓練集中其餘示例之間的距離。
我感到驚訝的是,即使一個類已經被預測具有90%以上的置信度,但餘弦相似性測量結果表明給出的例子幾乎與該組例子具有相同的正交性在訓練集中的類。
有人可以提供一些線索,爲什麼可以觀察到這種差異?
我認爲對於與相同類別的其餘觀測值相差很遠的例子,LogisticRegression算法會返回較低的預測概率。