reward shaping ,Q -initialization 강화학습 2 : edwith

강화학습 2

KAIST 산업및시스템공학과 신하용 교수님 KOOC (KAIST Open Online Course)

http://www.edwith.org/reinforcement-learning2/forum/127524

dingdinggi 2022.11.24

안녕하십니까 제 생각이 맞는가 싶어서 글을 남깁니다.

강의 마지막 부분에 reward shaping = Q-initialization이라고 하셨는데 Potential-Based Shaping and Q-Value Initialization are Equivalent을 읽어보니 저의 생각은 이러면 안된다 입니다.

이는 bias 때문인데 True Q-value 를 찾아가는데 Target-Q와 Predict-Q 모두 reward shaping 에 의해서 bias를 가져 전혀 다른 결과값을 도출할 수 있다고 판단하였습니다. 따라서 Dynamic-PB, Dynamic-PB-advice 가 더 올바른 방법이라고 생각합니다.

최근에 reward shaping에 관련하여 고민도 많고 궁금한 점도 많았는데 혼자 논문 리뷰하는 것보다 이렇게 강의를 들으니 크게 와닫는 부분이 많습니다. 좋은 강의를 이렇게 공유 해주셔서 감사합니다.

강화학습 2

comment