我看到很多實現使用GIS或IIS來訓練最大熵模型。我們可以使用漸變下降法嗎?如果我們可以使用它,爲什麼大多數教程直接告訴GIS或IIS方法,但是沒有顯示簡單漸變方法來訓練最大熵模型?正如我們所知,softmax迴歸相當於maxent模型,但我從來沒有聽說過softmax中的GIS或IIS。爲什麼?是否有一個玩具代碼使用簡單的漸變方法來訓練maxent模型?我認爲實現一個玩具代碼很容易,派生只是計算經驗期望和模型期望值。我們可以在最大熵模型中使用梯度下降法嗎?
2
A
回答
1
「最大熵模型」是一個不明確的術語,它可以描述數十種最大熵的方法。但是,如果您參考了最爲人熟知的「MaxEnt」,那麼這只是邏輯迴歸,它可以和通常是解決梯度下降。此外,傳統的前饋網絡在最後一層使用邏輯迴歸成本(因此最大熵成本),並且它們也用SGD來解決。
爲了更一般地回答 - 可以使用GD學習任何具有參數可變成本的模型。例如,SVM可以通過GD學習(儘管通常不是我們有更高效的方法來利用SVM的某些特定功能)。因爲GD是非常通用的工具,它不利用問題特徵(如曲率等),所以「可以解決」並不意味着「應該是」。迭代縮放方法更適合於MaxEnt的特定優化問題,因爲我們對MaxEnt成本的瞭解要多得多,因爲它是可區分的,並且具有單一解決方案。
請參閱Berkley lecture瞭解大量細節並逐步介紹許多可能的方法。
相關問題
- 1. 有人可以給我一個梯度下降的概述嗎?
- 2. 梯度下降vs隨機梯度下降算法
- 3. 梯度下降算法
- 4. 我可以在角度模型的語法中使用...嗎?
- 5. 梯度下降在Python
- 6. 隨機梯度下降甚至可以與TensorFlow一起使用嗎?
- 7. 梯度(最速)下降的實現
- 8. 我可以實現任意凸失效函數的梯度下降嗎?
- 9. 我們可以使用metaprograming在工會中獲得最大(sizeof)類型嗎?
- 10. 使用MXNet的梯度下降NDArray
- 11. 如何預測使用梯度下降
- 12. 梯度下降實現
- 13. 多變量梯度下降
- 14. 梯度下降Matlab實現
- 15. 梯度下降VS fminunc
- 16. 在TensorFlow中實現梯度下降而不是使用隨其提供的梯度下降
- 17. 我們可以找到iDevice模型嗎?
- 18. 我們可以降級InstallShield項目嗎?
- 19. 最大熵模型和邏輯迴歸
- 20. 在Python中使用隨機梯度下降進行嶺迴歸
- 21. matlab中的多變量梯度下降
- 22. CUDA中的梯度下降優化
- 23. 梯度下降(在錯誤檢測差)
- 24. Logistic迴歸梯度下降在Matlab
- 25. 最大熵使用的OpenCV
- 26. 我可以在噪音消除算法中使用圖像熵,以便提高它們的有效性嗎?
- 27. 我們可以並排使用doctrine和Zend_db_table模型嗎?
- 28. 我們可以使用MemberFunction類型作爲模板參數嗎?
- 29. 我們可以在css中使用百分比高度嗎?
- 30. 我可以應用張量計算中的梯度嗎?
謝謝。你的回答對我很有幫助。我只是想知道大多數邏輯迴歸教程將描述漸變缺陷方法,但最大模型不會。這讓我很困惑,我們是否可以在maxent模型中使用漸變方法。從你的回答和我的想法,我們實際上可以建立一個使用它的模型,即使有更好的方法。 – sbsbsb945
準確。 NLP和統計優化社區部分獨立開發的事實也有所不同,因此他們有自己的「最愛」。 – lejlot