로그인 바로가기 하위 메뉴 바로가기 본문 바로가기

강화학습 2

임시 이미지 KAIST 산업및시스템공학과 신하용 교수님 KOOC (KAIST Open Online Course)
http://www.edwith.org/reinforcement-learning2/forum/128785
좋아요 83 수강생 303

안녕하세요, 공부를 하다가 헷갈리는 부분이 있어 질문드립니다. 

UCB1 알고리즘, Bayesian UCB 알고리즘, Thompson sampling 알고리즘 무엇이 

deterministic policy, stochastic policy인가요? 

bayesian UCB와 thompson sampling 는 확률값을 계산하긴 하지만 맨 마지막에 argmax로 deterministic 하게 

다음 액션을 고르기 때문에, deterministic policy라고 생각해서 세 알고리즘 모두 deterministic policy라고 생각했는데요, 

제 생각이 맞나요?