讀 textbook ch2~2.7: http://incompleteideas.net/book/the-book-2nd.html

The K-Armed Bandit Problem

可以看這個影片快速了解問題定義: https://www.youtube.com/watch?v=9pZv3-6EUq8

image.png

image.png

這 5 個拉霸機都有各自得到 reward 的 distributions, 但我們不知道

知道的話每次選擇第 5 台就好

注意到如果 reward distribution 會隨時間改變, 則稱 nonstationary problem, 這是實際問題常見的情況.

RL 的名詞定義

定義一些名詞:

Sample-Average Method 和 $\varepsilon$-greedy Action Selection

Sample-averages and $\varepsilon$-greedy action selection 的 pseudo-codes