雖然以 Coursera 課程 (Sample-based Learning Methods) 來當 RL 的第二份筆記

但個人完全偏好赵世钰老師的 RL 課程和課本: 强化学习的数学原理 [YouTube] 的內容, 因此會以趙老師內容來記錄.

第二份 RL 筆記對應到趙老師的內容為 Chapter 5 to 7

Ch 5: Monte Carlo Methods for Prediction & Control

6️⃣ Ch 6: Robbins-Monro Algorithm 和 Dvoretzky's Convergence Theorem 筆記

Ch 7: Temporal Difference Learning Methods for Prediction/Control

Stochastic approximation 很重要的 chapter