合成模型和平均模型有什麼區別？

在機器翻譯中，序列到序列模型變得非常流行。他們經常使用一些技巧來提高性能，例如集合或平均一組模型。這裏的邏輯是錯誤將會「平均」。合成模型和平均模型有什麼區別？

據我所知，平均值模型是簡單地取X模型參數的平均值，然後創建一個可用於解碼測試數據的單一模型。合奏，然而平均每個模型輸出。這要花費更多的資源，因爲X模型必須提供輸出，而平均模型只能在測試數據上運行一次。

這裏的區別究竟是什麼？輸出如何不同？在我的測試中，兩種方法都比基線評分有小幅和類似的改善。這讓你想知道爲什麼人們只要平均就能打擾樂團。然而，在我遇到的所有神經機器翻譯論文中，人們都在談論集合，而不是關於平均。爲什麼是這樣？是否有關於平均的論文（特別是seq2seq和機器翻譯相關論文）？

任何幫助，非常感謝！

2017-09-06 RNRug

合奏是一個更通用的術語。套袋和助推是集合方法的例子。

例如，隨機森林不僅僅是平均決策樹，它使用bagging - 首先隨機抽樣數據和特徵，然後訓練樹（使用所有數據/特徵沒有多大意義，因爲樹會是真的類似）。

2017-09-06 12:55:35

回答