政策梯度網絡中的自動區分

我確實瞭解政策梯度網絡中的反向傳播，但我不確定如何與自動區分的庫協同工作。政策梯度網絡中的自動區分

也就是說，他們如何將它轉換成監督學習問題。例如，下面的代碼：

Y = self.probs + self.learning_rate * np.squeeze(np.vstack([gradients]))

爲什麼爲Y爲動作不1-熱矢量取？他正在計算假設動作正確的梯度，Y是一個熱點向量。然後他在相應的時間步驟中乘以獎勵。但是，當他訓練時，他將其作爲矯正。我認爲他應該通過一個熱門矢量來增加獎勵。 https://github.com/keon/policy-gradient/blob/master/pg.py#L67

來源

2017-06-25 Abhishek Bhatia

Y不是一個熱點向量，因爲它是行動概率（即self.prob）乘以相應獎勵的總和。

來源

2017-10-25 18:49:56 vin

政策梯度網絡中的自動區分

回答

相關問題