Deep Q Network 的簡稱叫DQN, 是將Q learning 的優勢和Neural networks 結合了. 如果我們使用tabular Q learning, 對於每一個state, action 我們都需要存放在一張q_table 的表中. 如果像顯示生活中, 情況可就比那個迷宮的狀況復雜多了, 我們有千千萬萬個state, 如果將這千萬個state 的值都放在表中, 受限於我們電腦硬體, 這樣從表中獲取數據, 更新數據是沒有效率的. 這就是DQN 產生的原因了. 我們可以使用神經網絡來估算這個state 的值, 這樣就不需要一張表了.
整個算法乍看起來很複雜, 不過我們拆分一下, 就變簡單了. 也就是個Q learning 主框架上加了些裝飾.
這些裝飾包括:
- 記憶庫(用於重複學習)
- 神經網絡計算Q 值
- 暫時凍結
q_target
參數(切斷相關性)
沒有留言:
張貼留言