2017-09-12 37 views
4

我注意到h2o.ai套件中增加了一個相對較新的功能,能夠執行補充Platt定標以改進輸出概率的校準。 (請參閱calibrate_model in h2o manual。)儘管如此,聯機幫助文檔中仍然沒有提供任何指導。我特別想知道Platt Scaling何時啓用:h2o.ai Platt定標校準

  • 它是如何影響模型的排行榜?也就是說,platt縮放是在排名指標之後還是之前計算的?
  • 它如何影響計算性能?
  • calibration_frame是否可以與validation_frame相同或不應該(在計算或理論觀點下)?

預先感謝

回答

1

校準是模型完成之後運行的後處理步驟。因此它不會影響排行榜,並且它對訓練指標也沒有影響。它爲評分框添加了2列(帶有校準預測)。

This article提供指導如何構造一個校準幀:

  1. 分割數據集到測試和列車
  2. 拆分列車設置成模型訓練和校準。

它也說: 最重要的一步是創建一個單獨的數據集來執行校準。

我認爲校準幀應該只用於校準,因此不同於驗證幀。保守的答案是它們應該是分開的 - 當你使用驗證框架來提前停止或者任何內部模型調整(例如H2O GLM中的lambda搜索)時,驗證框架就成爲「訓練數據」的擴展,所以它是一種禁止在那個點上。但是,您可以嘗試兩種版本並直接觀察效果,​​然後做出決定。以下是文章中的一些額外指導:

「用於校準的數據量取決於您可用的數據量。校準模型通常只適合少量參數(因此您不需要需要大量的數據),我的目標是培訓數據的10%左右,但至少有50個例子。「

+1

感謝Erin的指導。我會建議將這個文件合併到h2oai文件中,至少是合成格式 –

+0

是的,我們將把它添加到文檔中。 –