雖然以 Coursera 的課程 (Prediction and Control with Function Approximation) 來當 RL 第三份筆記

但個人完全偏好赵世钰老師的 RL 課程和課本: 强化学习的数学原理 [YouTube] 的內容, 因此會以趙老師內容來記錄.

第三份 RL 筆記對應到趙老師的內容為 Chapter 8 to 10

Ch8: Value Function with Function Approximation Methods

Ch9: Policy Gradient Methods

Ch10: Actor-Critic Methods

另一個 RL book by Kevin Murphy: https://arxiv.org/abs/2412.05265

某位中文博客的筆記: https://zhuanlan.zhihu.com/p/15865727118