赵世钰老師的 RL 課程: https://www.youtube.com/watch?v=jYUasguMr4E&list=PLEhdbSEZZbDYwsXT1NeBZbmPCbIIqlgLS&index=38

在開始之前先說明什麼是 stationary distribution $d_\pi$.

對一個 MDP (Markov Decision Processes) 來說, model 的 dynamic function 為:

$$ p(s',r|s,a)\triangleq Pr\{S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a\} $$

假設 policy $\pi(a|s)$ 是給定的, 則我們積分掉 $r,a$ 得到 transition probability $p(s'|s)$ (寫成矩陣就是 Transition matrix $P_\pi$)

$$ \sum_{r,a}\pi(a|s)p(s',r|s,a)=\sum_{r,a}p(s',r,a|s)=p(s'|s) $$

代表 MDP 退化成一個 Markov chain (or Markov process).

為什麼要說 Markov chain 呢? 因為一旦滿足 Ergodic Theorem 則存在唯一 stationary distribution $d_\pi$.

(或稱 steady state distribution, limiting distribution)

趙老師課本裡寫的條件是如果一個 Markov process 是 regular 則存在唯一 stationary distribution. 從 regular 的定義: $\exists k\leq1$, s.t. $[P_\pi^k]_{i,j}>0$, $\forall i,j$; 可以知道等價於 ergodic.

Algorithm for State Value Estimation

如果 state 不是有限集合, 或 action 不是有限集合, 則 state value $v_\pi(s)$ 或 action value $q_\pi(s,a)$ 就無法寫成 tabular 型式.

因此只能用 continuous function 來代表, $\hat{v}(s,w)$, 其中 $w$ 表示該 function 的參數

一般來說我們會有這樣的(優化)目標函數

$$ \begin{align} J(w)=\frac{1}{2}\mathbb{E}{s\sim p}[(v\pi(S)-\hat{v}(S,w))^2] \end{align} $$

這表示我們的估計 function $\hat{v}$ 要跟目標 $v_\pi$ 在 MSE 視角下 “期望值” 愈小愈好

這就引出一個問題, 這個期望值要依據什麼機率分佈? 也就是式子裡的 $s\sim p$ 的機率 $p$ 要設定成什麼樣?

基於開頭說的 MDP 在給定 policy $\pi$ 情況下會 reduce 成 Markov chain, 而滿足一個不困難的條件我們會有 stationary distribution $d_\pi$.