0

我正在與亞馬遜網絡服務機器學習服務的試點工作,我有些疑惑。如何解讀AWS機器學習服務的性能結果?

我已經使用了二元分類器模型,在我看來,所得結果的直方圖與數值結果不匹配。根據直方圖,假陽性的分佈高於真陰性的分佈,但數值結果不會呈現這種行爲。

Histogram

  • 778個真陽性
  • 15178真陰性
  • 6663誤報
  • 173漏報

任何人都可以帶來一些見解這件事?

謝謝

回答

0

這就是答案,從亞馬遜Web服務支持團隊,我的問題,通過他們的論壇:

做一些周圍挖掘後,我發現,Y軸縮放 對數的直方圖,這就解釋了爲什麼直接1:1區域的真正的負值和誤報率的比較不會是 與數值結果一致。如果我們沒有顯示 對數刻度,我的猜測是你的Y軸大部分是 ,主要由真實的負面和真正的正面結果所支配,而假的正面和假面負面可能太小而不明顯。

參考:https://forums.aws.amazon.com/message.jspa?messageID=733706

如果Y軸是對數的結果確實匹配與所提供的直方圖。

0

您對截止分數控制(縱線),並可以將其從右到左運動,反之亦然。在您的圖表中,您將截斷得分方式向左移動,這意味着在大多數情況下您會預測「是」,因此,您將會有更多的誤報(錯誤地預測爲正值(=是)),而不是錯誤的負值。

+0

謝謝你的答案,但這裏的問題是在負面觀察直方圖內。從附圖中可以看出,考慮到0.02的閾值並且只有負向觀測柱狀圖,閾值左側覆蓋的面積遠小於右側面積。這與以下結果不符: 15,178 true negatives(閾值左側的區域) 6,663誤報(閾值右側的區域) –

+0

您看不到所有真實的負面信息(灰色區域在左上角),因爲你可能有很多零或接近零值。 如果比較錯誤預測(假陰性= 173和假陽性= 6,663),則可以輕鬆看到這些條紋區域與截止線左右的比率。 – Guy

+0

我認爲不能看到所有真正的消極因素是沒有意義的。如果有很多零和接近零值的直方圖應該有一個非常高的數字,就是這樣...不是嗎?除非垂直軸的比例是對數! –