Ch10: Actor-Critic Methods

Actor-critic 本身就是 policy gradient 方法, 其中

我們之前聊到 policy gradient 有一個步驟是用 $q_t(a_t,s_t)$ 來替代不知道的正確答案 $q_\pi(a_t,s_t)$.

這個替代有兩種方式:

Monte Carlo 法: 使用 MC 來估計 $q_\pi$ 的 policy gradient 方法又稱 REINFORCE.
TD 法: 使用 temperal difference 來估計 $q_\pi$ 的 policy gradient 方法稱 actor-critic, 就是本章要介紹的.

看完本章的筆記最後看一下 Jia-Bin Huang 的影片: How LLMs Learn to Reason with Reinforcement Learning, 簡直是完美的總結回顧! ✨

The simplest actor-critic algorithm (QAC)

我們可以這麼想, 基於 Sarsa 的算法, 把他的 policy update 和 value update 分別用 function approximation 的方法實作就結束了

(或用以前的名詞稱 PE, policy evaluation, 和 PI, policy improvement)

注意到這個方法 (QAC) 是 on-policy. (回顧一下之前說 REINFORCE 為什麼是 on-policy 就能明白)