學習者可能正處於訓練階段,在那裏它會更新一堆時代的Q表。加強學習:在Q-learning培訓完成後,我是否必須忽略超參數(?)?
在這個階段,Q表會更新爲gamma(貼現率),學習率(alpha),並且動作將由隨機動作率選擇。
經過一段時間後,當獎勵變得穩定後,讓我稱之爲「訓練完成」。那麼在那之後我必須忽略這些參數(伽馬,學習率等)嗎?
我的意思是,在訓練階段,我從Q-表像這樣的動作:
if rand_float < rar:
action = rand.randint(0, num_actions - 1)
else:
action = np.argmax(Q[s_prime_as_index])
但經過訓練階段,我必須刪除rar
,這意味着我得從操作像這樣的Q桌子?
action = np.argmax(self.Q[s_prime])
你使用哪些語言和庫?添加標籤。 – user31264
我不使用任何庫...我自己做了整個系統 – user3595632
似乎這是一個問題stats.stackexchange.com或ai.stackexchange.com – user31264