TD advantage actor-critic 알고리즘에 대하여 강화학습 2 : edwith

강화학습 2

KAIST 산업및시스템공학과 신하용 교수님 KOOC (KAIST Open Online Course)

http://www.edwith.org/reinforcement-learning2/forum/128522

njim 2023.01.04

안녕하세요, 강의 슬라이드에서 TD Advatnage Actor Critic 알고리즘을 설명하는 슬라이드 에서 궁금한 것이 있어 여쭤봅니다.

TD advantage Actor-Critic에서는 Q function 이 사용되지 않고 V function만 사용되는데, 슬라이드 에서는 Q funtion의 prameter인 w가 업데이트를 하고 있습니다. 제 생각에는 v를 업데이트 해야 할것 같은데, 맞나요?

강화학습 2