關於skip-gram模型,爲了訓練目的,輸入是單詞(單熱表示),輸出是其上下文單詞(多個單熱表示)。例如,(A,B),(A,C),(A,D) 我的問題是:當我們運行訓練過程時,我們一對一運行模型對,或者我們只輸入[A,B | C | D]一起?skip-gram模型的不同訓練對之間的一致性
另一個問題是關於單詞向量矩陣「M」(輸入層和隱藏層之間的矩陣)。由於輸入是單熱的,因此輸入的結果(size | V |)x M是大小爲| V |的向量這是一個單詞向量矩陣的行。我的問題是:當我們運行反向傳播時,似乎只更新了一行單詞向量矩陣。
這是真的嗎? (A,B),(A,C),(A,D),如何保持不同對的不同反向傳播的一致性?例如,一旦對(A,B)完成,字向量矩陣中的行就被更新。通過更新,(A,B)的錯誤將會減少。然後我們運行pair(A,C),挑選相同的行並通過反向傳播進行更新。現在這個時候,(A,C)的錯誤將會減少。但(A,B)的校正將被擦除,這意味着(A,B)的反向傳播被丟棄。我的理解在這裏正確嗎?
由於