RL A2C 관련 Loss Function, Advantage 확인 자료
2019. 11. 16. 16:42ㆍ관심있는 주제/RL
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^
개인적으로 강화학습을 코드 볼 일이 있어서 보다가 표준화를 보게 되었다.
코드를 보다보니 Reward를 표준화하는 코드가 있어서 호기심이 들었다.
왜 Reward는 항상 양수로 되야 잘 되는거 아닌가 하면서 표준화를 하면 중심을 기준으로 어떤 것은 음수가 되고
어떤 것은 양수가 되면서 그만큼 Reward의 효과도 주는게 아닐까라고 생각을 했다.
그래서 찾아보니 몇가지 글이 있었다.
다른 분들도 참고하시길 바란다!
a2c REWARD 표준화하는 이유
http://www.modulabs.co.kr/RL_library/4225
http://rail.eecs.berkeley.edu/deeprlcourse-fa17/f17docs/hw2_final.pdf
A2C 코드 (PYTorch)
https://github.com/rgilman33/simple-A2C/blob/master/2_A2C-nstep.ipynb
A2C (Tensorflow)
http://steven-anker.nl/blog/?p=184
728x90
'관심있는 주제 > RL' 카테고리의 다른 글
chapter 4 Dynamic Programming Example Grid World (0) | 2020.05.05 |
---|---|
강화학습 - Dynamic Programming 공부 (0) | 2020.05.01 |
state value / state action value 관련 자료 (0) | 2020.04.27 |
Contextual Bandits and Reinforcement Learning - 리뷰 (0) | 2020.02.18 |
Using Deep Q-Learning in the Classification of an Imbalanced Dataset - 리뷰 (0) | 2020.01.07 |