temporal-difference

    3熱度

    2回答

    This is a small portion of the dataframe I am working with for reference.我正在使用R中的一個數據幀(MG53_HanLab),它有一列Time,其中有多個名稱爲「MG53」的列,名爲「F2 「和幾個與」Iono「在他們。我想比較每個時間點的每個組的手段。我知道我必須對數據進行子集化並嘗試做 control <- MG53_H

    1熱度

    1回答

    我正在製作一個程序,教導2名玩家使用強化學習和基於餘暉的時間差分學習方法(TD(λ))玩簡單的棋盤遊戲。學習是通過訓練神經網絡來實現的。我用Sutton's NonLinear TD/Backprop neural network)我真的很喜歡你對我下面的困境的看法。 播放的兩個對手之間的匝數的基本算法/僞代碼是這樣 WHITE.CHOOSE_ACTION(GAME_STATE); //White

    2熱度

    1回答

    在GTD的每一種形式(λ)似乎用函數逼近來定義它,使用θ和一些權重向量w。 我知道漸變方法的需求廣泛來自線性函數逼近器的收斂性,但我想利用GTD進行重要性採樣。 是否有可能在沒有函數逼近的情況下利用GTD?如果是這樣,更新方程是如何形式化的?

    0熱度

    1回答

    我正在嘗試實現一個類似於td-gammon的雙陸棋算法here。 正如論文中所描述的,td-gammon的初始版本僅使用特徵空間中的原始板編碼創建了良好的播放代理,但要獲得世界級的代理,您需要添加一些預先計算的代理與好戲相關的功能。其中最重要的特徵之一就是印跡曝光。 印跡曝光被定義here爲: 對於給定的印跡,輥數的36,這將允許對手打印跡。總印跡暴露量是36箇中的卷數,這將允許對手擊中任何污點。

    4熱度

    3回答

    我有一個人工神經網絡播放井字遊戲 - 但它還沒有完成。 我有什麼尚未: 獎勵陣列 「R [T]」 具有每個時間步長或移動 「t」 的整數值(1 =玩家A贏了,0 =拉伸,-1 =玩家B獲勝) 輸入值通過網絡正確傳播。 公式調整權重: 缺少什麼: 的TD學習:我還需要一個過程,它 「backpropagates」 的網絡的誤差使用TD(λ)算法。 但我不太瞭解這個算法。 我的做法至今... 跟蹤衰減

    0熱度

    1回答

    下面的代碼是我對時間差異學習的實現。使用TD算法的代理與使用迷你最大程序玩遊戲的代理玩超過750,000個遊戲,但問題是TD代理不學習......這種實現有什麼問題? 當代理選擇下一步移動時,會調用updateToNextState。 public void updateToNextState(int[] currentState, double[] nextStateOutput) {

    1熱度

    1回答

    我已閱讀此頁的斯坦福 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html。我無法理解TD學習如何用於神經網絡。我正在嘗試製作一個跳棋AI,它將使用TD學習,類似於他們在西洋雙陸棋中所實施的功能。請解釋TD Back-Propagation的工作。 我已經提到這個問題 - Neural Network and T

    1熱度

    1回答

    我試圖總結我解決這個任務頭,不知道是否有這樣做的標準方法或一些圖書館,將是有益的。 某些事件跟蹤和定時在多個數據源S1 ... SN。記錄的信息是事件類型和時間戳。可能會有幾個相同類型的事件依次發生,也可能是間歇性的。可能存在「缺失」事件 - 即當其中一個來源錯過時,反之亦然,當來源引入「誤報」時。在不同來源的同一事件的觀察之間通常會有時間差異。由於源的物理位置,此時間差異具有恆定分量,但也可能由

    3熱度

    1回答

    我正在嘗試爲奧賽羅構建一個時間差異學習代理。雖然我的其他實現似乎按預期運行,但我想知道用於訓練我的網絡的損失函數。在Sutton的「增強學習:導論」一書中,均方誤差值(MSVE)是標準損失函數,它基本上是一個均方誤差乘以策略分佈(所有狀態之和(onPolicyDistribution(s )* [V(s)-V'(s,w)] 2)) 我現在的問題是:當我的策略是學習值函數的e-greedy函數時,如

    1熱度

    3回答

    我有以下神經網絡類的草稿。這個神經網絡應該學習TD-lambda。它通過調用getRating()函數來啓動。 但遺憾的是,經過約1000次迭代的EInvalidOp(無效floading點操作)錯誤下面幾行: neuronsHidden[j] := neuronsHidden[j]+neuronsInput[t][i]*weightsInput[i][j]; // input -> hidden