這週的重點在 Chapter 3.1~3.4, Markov Decision Processes (MDP)

參考 exercise solution:

Solutions_to_Reinforcement_Learning_by_Sutton_Chapter_3_rx1.pdf

Agent 和 Environment 在 MDP 的介紹

image.png

一般來說, 如果不能用 agent 隨意變換的因子全部都被歸類在 environment

上圖下面可以看到在 current state 可以採取 action, 然後得到 reward 後會轉換到下一個 state, 重複這樣的過程會得到一條 trajectory, 這概念下面會較嚴格定義.

Markov Decision Process (MDP)

給定前一次 state $s$ 和前一次 action $a$, 我們可以定義 state 和 reward 的 distribution:

$$ p(s',r|s,a)\triangleq Pr\{S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a\} $$

For all $s',s\in\mathcal{S}$, $r\in\mathcal{ R}$, and $a\in\mathcal{A}(s)$. Action space 是從 state 定義出來的.

所以 $p:\mathcal{S}\times\mathcal{R}\times\mathcal{S}\times\mathcal{A}\rightarrow[0,1]$. ( $p$ 稱 dynamics function of MDP )

目前我們都假設知道 dynamics function, 如果不知道這個四元 $p$ 的話, 叫做 model-free RL.

image.png

這種只跟前一次有關的特性就是 Markov property.

赵世钰老師的這段課程總結得很好:

image.png

注意到 state transition probability $p(s'|s,a)$ 和 reward probability $p(r|s,a)$ 可以用上述定義的四元機率 $p(s',r|s,a)$ 做 marginal integral 得到.

當 Markov decision process 給定 policy $\pi(a|s)$ 後, 就會得到一個 Markov process: