赵世钰老師的 RL 課程: https://www.youtube.com/watch?v=R-58PhA5cu0&list=PLEhdbSEZZbDYwsXT1NeBZbmPCbIIqlgLS&index=45

Function approximation 不但可以用在 value function, i.e. $v(s,w)$ 或 $q(s,a,w)$, 其中 $w$ 為參數, 也可以用在 policy function, 即 $\pi(a,\theta)$, 其中 $\theta$ 為參數.

這樣可以讓 actions 不只限於 tabular form, 也可以是 continous form.

以前 tabular policy 我們知道什麼是 optimal policy, 但現在如果是 continuous form 就需要一些 metrics 來定義什麼是 optimal.

藉由這些 metrics (目標函數) 用 SGD 來優化找出最佳 policy, 這種方法稱 policy gradient method.

<aside> ⚠️

這章的數學真的很多, 尤其是推導 gradient, 這些需要直接看課本, 故不在這裡筆記

</aside>

Metrics for dening optimal policies

Metric 1: Average state value

每一個 state 的 value $v_\pi(s)$ 根據 state 分布 $d(s)$ 做個平均

$$ \begin{align} {\color{orange}{\bar{v}\pi\cdot\sum{s\in\mathcal{S}}d(s)v_\pi(s) =\mathbb{E}{S\sim d}[v\pi(S)]}} \\ =d^Tv_\pi,\quad\text{where }v_\pi=[\dots,v_\pi(s),\dots]^T,d=[\dots,d(s),\dots]^T \end{align} $$

  1. $d(s)$ 跟 policy $\pi$ 無關

    這個情況我們會用 $\bar{v}_\pi^0$ 和 $d_0$ 來表示. 例如 $d(s)=1/|\mathcal{S}|$ 是一個 uniform distribution. 或是我們只關心某一個 state 的話, $d_0$ 就是一個 one-hot vector.

  2. $d(s)$ 跟 policy $\pi$ 有關

    通常設定為 stationary distributino $d_\pi(s)$, 其滿足 $d_\pi=P_\pi d_\pi$, 其中 $P_\pi$ 為狀態轉移矩陣.

Average state value $\bar{v}_\pi$ 還有另一個重要的表示方式

假設透過 $\pi(\theta)$ 與環境交互得到 rewards sequence: $\{R_{t+1}\}_{t=0}^\infty$, 則定義目標函式 $J(\theta)$ 為