赵世钰老師的 RL 課程: https://www.youtube.com/watch?v=w8RqJCl0Z5g&list=PLEhdbSEZZbDYwsXT1NeBZbmPCbIIqlgLS&index=50
PyTorch: actor-critic example
Actor-critic 本身就是 policy gradient 方法, 其中
我們之前聊到 policy gradient 有一個步驟是用 $q_t(a_t,s_t)$ 來替代不知道的正確答案 $q_\pi(a_t,s_t)$.
這個替代有兩種方式:
看完本章的筆記最後看一下 Jia-Bin Huang 的影片: How LLMs Learn to Reason with Reinforcement Learning, 簡直是完美的總結回顧! ✨
我們可以這麼想, 基於 Sarsa 的算法, 把他的 policy update 和 value update 分別用 function approximation 的方法實作就結束了
(或用以前的名詞稱 PE, policy evaluation, 和 PI, policy improvement)
注意到這個方法 (QAC) 是 on-policy. (回顧一下之前說 REINFORCE 為什麼是 on-policy 就能明白)