로그인 바로가기 하위 메뉴 바로가기 본문 바로가기

강화학습 2

임시 이미지 KAIST 산업및시스템공학과 신하용 교수님 KOOC (KAIST Open Online Course)
http://www.edwith.org/reinforcement-learning2/forum/128522
좋아요 83 수강생 303

안녕하세요,  강의 슬라이드에서 TD Advatnage Actor Critic 알고리즘을 설명하는 슬라이드 에서 궁금한 것이 있어 여쭤봅니다. 

TD advantage Actor-Critic에서는 Q function 이 사용되지 않고 V function만 사용되는데, 슬라이드 에서는 Q funtion의 prameter인 w가 업데이트를 하고 있습니다. 제 생각에는 v를 업데이트 해야 할것 같은데, 맞나요?