로그인 바로가기 하위 메뉴 바로가기 본문 바로가기

강화학습 2

임시 이미지 KAIST 산업및시스템공학과 신하용 교수님 KOOC (KAIST Open Online Course)
http://www.edwith.org/reinforcement-learning2/forum/127524
좋아요 83 수강생 303

안녕하십니까 제 생각이 맞는가 싶어서 글을 남깁니다.

강의 마지막 부분에 reward shaping = Q-initialization이라고 하셨는데 Potential-Based Shaping and Q-Value Initialization are Equivalent을 읽어보니 저의 생각은 이러면 안된다 입니다.

이는 bias 때문인데 True Q-value 를 찾아가는데 Target-Q와 Predict-Q 모두 reward shaping 에 의해서 bias를 가져 전혀 다른 결과값을 도출할 수 있다고 판단하였습니다. 따라서 Dynamic-PB, Dynamic-PB-advice 가 더 올바른 방법이라고 생각합니다. 



최근에 reward shaping에 관련하여 고민도 많고 궁금한 점도 많았는데 혼자 논문 리뷰하는 것보다 이렇게 강의를 들으니 크게 와닫는 부분이 많습니다. 좋은 강의를 이렇게 공유 해주셔서 감사합니다.