Deterministic vs stochastic policy in MAB 강화학습 2 : edwith

강화학습 2

KAIST 산업및시스템공학과 신하용 교수님 KOOC (KAIST Open Online Course)

http://www.edwith.org/reinforcement-learning2/forum/128785

njim 2023.01.20

안녕하세요, 공부를 하다가 헷갈리는 부분이 있어 질문드립니다.

UCB1 알고리즘, Bayesian UCB 알고리즘, Thompson sampling 알고리즘 무엇이

deterministic policy, stochastic policy인가요?

bayesian UCB와 thompson sampling 는 확률값을 계산하긴 하지만 맨 마지막에 argmax로 deterministic 하게

다음 액션을 고르기 때문에, deterministic policy라고 생각해서 세 알고리즘 모두 deterministic policy라고 생각했는데요,

제 생각이 맞나요?

강화학습 2