雖然以 Coursera 課程 (Sample-based Learning Methods) 來當 RL 的第二份筆記
但個人完全偏好赵世钰老師的 RL 課程和課本: 强化学习的数学原理 [YouTube] 的內容, 因此會以趙老師內容來記錄.
第二份 RL 筆記對應到趙老師的內容為 Chapter 5 to 7
Ch 5: Monte Carlo Methods for Prediction & Control
6️⃣ Ch 6: Robbins-Monro Algorithm 和 Dvoretzky's Convergence Theorem 筆記
Ch 7: Temporal Difference Learning Methods for Prediction/Control
Stochastic approximation 很重要的 chapter