njim 2023.01.04 신고 안녕하세요, 강의 슬라이드에서 TD Advatnage Actor Critic 알고리즘을 설명하는 슬라이드 에서 궁금한 것이 있어 여쭤봅니다. TD advantage Actor-Critic에서는 Q function 이 사용되지 않고 V function만 사용되는데, 슬라이드 에서는 Q funtion의 prameter인 w가 업데이트를 하고 있습니다. 제 생각에는 v를 업데이트 해야 할것 같은데, 맞나요? 연관 강의 [9. Policy based RL : Stochastic Policy Gradient] Policy gradient algorithms 공유하기 URL복사 밴드 페이스북 트위터 추천 TD advantage actor-critic 알고리즘에 대하여 - njim TD advantage actor-critic 알고리즘에 대하여 - njim Deterministic vs stochastic policy in MAB reward shaping ,Q -initialization 목록 댓글 comment 최신순 등록순 추천순 나의 글만 보기 OFF 페이지 이동 First Prev Next Last
안녕하세요, 강의 슬라이드에서 TD Advatnage Actor Critic 알고리즘을 설명하는 슬라이드 에서 궁금한 것이 있어 여쭤봅니다. TD advantage Actor-Critic에서는 Q function 이 사용되지 않고 V function만 사용되는데, 슬라이드 에서는 Q funtion의 prameter인 w가 업데이트를 하고 있습니다. 제 생각에는 v를 업데이트 해야 할것 같은데, 맞나요?
comment