這週的重點在 textbook 的 Chapter 3.5~3.8
Exercise solution: Solutions_to_Reinforcement_Learning_by_Sutton_Chapter_3_rx1.pdf
我決定主要採用赵世钰老師的課程內容來筆記, 剛好也是 Chapter 3.
原因是透過這樣嚴謹的數學, 才能真正理解其本質 (尤其是 Bellman Optimality Equation), 不然照 Coursera 參考課本 (Sutton & Barto) Ch3 的內容無法理解透徹.
Policy 是個 distribution, 定義如下:
$$ \pi(A_t=a|S_t=s) $$
如果 $\pi$ 是 one-hot distribution, 則該 policy 為 deterministic, 是 stochastic policy 的一個特例.
思考一下 dynamics of MDP:
$$ p(s',r|s,a)\triangleq Pr\{S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a\} $$
假設現在的 state 是 $s$, 若 action 使用 policy $\pi(a|s)$ 來選擇, 那 $R_{t+1}$ 的期望值是多少呢?
$$ \begin{align} \mathbb{E}\pi[R{t+1}|S_t=s]=\sum_a\pi(a|s)\sum_{r}p(r|s,a)r \end{align} $$
我們知道 reward 是短期的獎勵, RL 希望的是長期的回報, 因此我們要考慮的是 Return $G_t$ 的期望值.
知道 Return $G_t=\sum_{k=0}^\infty \gamma^k R_{t+k+1}$, 所以我們關注的是下式的值:
$$ \begin{align} v_\pi(s)\triangleq\mathbb{E}_\pi[G_t|S_t=s],\quad\forall s\in\mathcal{S} \end{align} $$
某個 state $s$ 情況下評估出來的 $G_t$ 期望值, 我們稱為 state-value function for policy $\pi$, 數學寫為 $v_\pi(s)$, 物理意義為”從當前狀態開始的期望回報”.