[Survey / RL] Action Masking 관련 자료
invalid action이 있는 경우 따로 계산할 필요가 없기 때문에, 선택지에서 애초에 제고를 하여 에이전트가 잘 학습되게 해야 한다. 그래서 action masking은 제한 조건이 있는 경우에 이쪽에 적용하는 것이 가장 좋을 것으로 판단된다. 그래서 관련된 리서치를 진행해보고 있는 중이다. 관련 예제 video game of snake automated stock trading 사례 및 간단 논문 설명 DQN 적용 사례 있음 PPO 적용 사례 없어서 논문 나옴 Action Mask 씌우고 확률값 재조정 Only valid actions are used in the collection of trajectory T. During stochastic descent, again only valid act..
2020.10.24