2016-07-10 55 views
2

我看到很多實現使用GIS或IIS來訓練最大熵模型。我們可以使用漸變下降法嗎?如果我們可以使用它,爲什麼大多數教程直接告訴GIS或IIS方法,但是沒有顯示簡單漸變方法來訓練最大熵模型?正如我們所知,softmax迴歸相當於maxent模型,但我從來沒有聽說過softmax中的GIS或IIS。爲什麼?是否有一個玩具代碼使用簡單的漸變方法來訓練maxent模型?我認爲實現一個玩具代碼很容易,派生只是計算經驗期望和模型期望值。我們可以在最大熵模型中使用梯度下降法嗎?

回答

1

「最大熵模型」是一個不明確的術語,它可以描述數十種最大熵的方法。但是,如果您參考了最爲人熟知的「MaxEnt」,那麼這只是邏輯迴歸,它可以和通常是解決梯度下降。此外,傳統的前饋網絡在最後一層使用邏輯迴歸成本(因此最大熵成本),並且它們也用SGD來解決。

爲了更一般地回答 - 可以使用GD學習任何具有參數可變成本的模型。例如,SVM可以通過GD學習(儘管通常不是我們有更高效的方法來利用SVM的某些特定功能)。因爲GD是非常通用的工具,它不利用問題特徵(如曲率等),所以「可以解決」並不意味着「應該是」。迭代縮放方法更適合於MaxEnt的特定優化問題,因爲我們對MaxEnt成本的瞭解要多得多,因爲它是可區分的,並且具有單一解決方案。

請參閱Berkley lecture瞭解大量細節並逐步介紹許多可能的方法。

+0

謝謝。你的回答對我很有幫助。我只是想知道大多數邏輯迴歸教程將描述漸變缺陷方法,但最大模型不會。這讓我很困惑,我們是否可以在maxent模型中使用漸變方法。從你的回答和我的想法,我們實際上可以建立一個使用它的模型,即使有更好的方法。 – sbsbsb945

+0

準確。 NLP和統計優化社區部分獨立開發的事實也有所不同,因此他們有自己的「最愛」。 – lejlot