0
在機器翻譯中,序列到序列模型變得非常流行。他們經常使用一些技巧來提高性能,例如集合或平均一組模型。這裏的邏輯是錯誤將會「平均」。合成模型和平均模型有什麼區別?
據我所知,平均值模型是簡單地取X模型參數的平均值,然後創建一個可用於解碼測試數據的單一模型。 合奏,然而平均每個模型輸出。這要花費更多的資源,因爲X模型必須提供輸出,而平均模型只能在測試數據上運行一次。
這裏的區別究竟是什麼?輸出如何不同?在我的測試中,兩種方法都比基線評分有小幅和類似的改善。這讓你想知道爲什麼人們只要平均就能打擾樂團。然而,在我遇到的所有神經機器翻譯論文中,人們都在談論集合,而不是關於平均。爲什麼是這樣?是否有關於平均的論文(特別是seq2seq和機器翻譯相關論文)?
任何幫助,非常感謝!