我們可以在最大熵模型中使用梯度下降法嗎？

我看到很多實現使用GIS或IIS來訓練最大熵模型。我們可以使用漸變下降法嗎？如果我們可以使用它，爲什麼大多數教程直接告訴GIS或IIS方法，但是沒有顯示簡單漸變方法來訓練最大熵模型？正如我們所知，softmax迴歸相當於maxent模型，但我從來沒有聽說過softmax中的GIS或IIS。爲什麼？是否有一個玩具代碼使用簡單的漸變方法來訓練maxent模型？我認爲實現一個玩具代碼很容易，派生只是計算經驗期望和模型期望值。我們可以在最大熵模型中使用梯度下降法嗎？

來源

2016-07-10 sbsbsb945

「最大熵模型」是一個不明確的術語，它可以描述數十種最大熵的方法。但是，如果您參考了最爲人熟知的「MaxEnt」，那麼這只是邏輯迴歸，它可以和通常是解決梯度下降。此外，傳統的前饋網絡在最後一層使用邏輯迴歸成本（因此最大熵成本），並且它們也用SGD來解決。

爲了更一般地回答 - 可以使用GD學習任何具有參數可變成本的模型。例如，SVM可以通過GD學習（儘管通常不是我們有更高效的方法來利用SVM的某些特定功能）。因爲GD是非常通用的工具，它不利用問題特徵（如曲率等），所以「可以解決」並不意味着「應該是」。迭代縮放方法更適合於MaxEnt的特定優化問題，因爲我們對MaxEnt成本的瞭解要多得多，因爲它是可區分的，並且具有單一解決方案。

請參閱Berkley lecture瞭解大量細節並逐步介紹許多可能的方法。

來源

2016-07-10 11:45:29 lejlot

謝謝。你的回答對我很有幫助。我只是想知道大多數邏輯迴歸教程將描述漸變缺陷方法，但最大模型不會。這讓我很困惑，我們是否可以在maxent模型中使用漸變方法。從你的回答和我的想法，我們實際上可以建立一個使用它的模型，即使有更好的方法。 – sbsbsb945

準確。 NLP和統計優化社區部分獨立開發的事實也有所不同，因此他們有自己的「最愛」。 – lejlot

我們可以在最大熵模型中使用梯度下降法嗎？

回答

相關問題