0
我使用adam_sgd optimiser訓練神經網絡,我有麻煩的參數在功能與參數關聯在報告中爲亞當報道。更具體地說,參數alpha,beta1,beta2和epsilon與CNTK實施Adam中的學習速率和動量有什麼關係?在CNTK實施ADAM優化的,參數α,β1,β2和小量如何與學習速率和動量
我使用adam_sgd optimiser訓練神經網絡,我有麻煩的參數在功能與參數關聯在報告中爲亞當報道。更具體地說,參數alpha,beta1,beta2和epsilon與CNTK實施Adam中的學習速率和動量有什麼關係?在CNTK實施ADAM優化的,參數α,β1,β2和小量如何與學習速率和動量