0
我確實瞭解政策梯度網絡中的反向傳播,但我不確定如何與自動區分的庫協同工作。政策梯度網絡中的自動區分
也就是說,他們如何將它轉換成監督學習問題。 例如,下面的代碼:
Y = self.probs + self.learning_rate * np.squeeze(np.vstack([gradients]))
爲什麼爲Y爲動作不1-熱矢量取? 他正在計算假設動作正確的梯度,Y是一個熱點向量。然後他在相應的時間步驟中乘以獎勵。但是,當他訓練時,他將其作爲矯正。 我認爲他應該通過一個熱門矢量來增加獎勵。 https://github.com/keon/policy-gradient/blob/master/pg.py#L67