RL A2C 관련 Loss Function, Advantage 확인 자료
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 개인적으로 강화학습을 코드 볼 일이 있어서 보다가 표준화를 보게 되었다. 코드를 보다보니 Reward를 표준화하는 코드가 있어서 호기심이 들었다. 왜 Reward는 항상 양수로 되야 잘 되는거 아닌가 하면서 표준화를 하면 중심을 기준으로 어떤 것은 음수가 되고 어떤 것은 양수가 되면서 그만큼 Reward의 효과도 주는게 아닐까라고 생각을 했다. 그래서 찾아보니 몇가지 글이 있었다. 다른 분들도 참고하시길 바란다! a2c REWARD 표준화하는 이유 http://www.modulabs.co.kr/RL_library/4225 OpenRL - 강화학습 그리고 OpenAI - 4: CartPole with Policy Gradient..
2019.11.16