赵世钰老師的 RL 課程: https://www.youtube.com/watch?v=w8RqJCl0Z5g&list=PLEhdbSEZZbDYwsXT1NeBZbmPCbIIqlgLS&index=50
PyTorch: actor-critic example
Actor-critic 本身就是 policy gradient 方法, 其中
我們之前聊到 policy gradient 有一個步驟是用 $q_t(a_t,s_t)$ 來替代不知道的正確答案 $q_\pi(a_t,s_t)$.
這個替代有兩種方式:
看完本章的筆記最後看一下 Jia-Bin Huang 的影片: How LLMs Learn to Reason with Reinforcement Learning, 簡直是完美的總結回顧! ✨
上一章的 MC policy gradient 算法, 把 value update 的地方採用 action value with function approximation 的方法就得到最簡單的 QAC 了

注意到這個方法 (QAC) 是 on-policy. (回顧一下之前說 REINFORCE 為什麼是 on-policy 就能明白)