0

在機器翻譯中,序列到序列模型變得非常流行。他們經常使用一些技巧來提高性能,例如集合或平均一組模型。這裏的邏輯是錯誤將會「平均」。合成模型和平均模型有什麼區別?

據我所知,平均值模型是簡單地取X模型參數的平均值,然後創建一個可用於解碼測試數據的單一模型。 合奏,然而平均每個模型輸出。這要花費更多的資源,因爲X模型必須提供輸出,而平均模型只能在測試數據上運行一次。

這裏的區別究竟是什麼?輸出如何不同?在我的測試中,兩種方法都比基線評分有小幅和類似的改善。這讓你想知道爲什麼人們只要平均就能打擾樂團。然而,在我遇到的所有神經機器翻譯論文中,人們都在談論集合,而不是關於平均。爲什麼是這樣?是否有關於平均的論文(特別是seq2seq和機器翻譯相關論文)?

任何幫助,非常感謝!

回答

0

合奏是一個更通用的術語。 套袋助推是集合方法的例子。

例如,隨機森林不僅僅是平均決策樹,它使用bagging - 首先隨機抽樣數據和特徵,然後訓練樹(使用所有數據/特徵沒有多大意義,因爲樹會是真的類似)。

相關問題