[Survey / RL] Action Masking 관련 자료
2020. 10. 24. 18:46ㆍ관심있는 주제/RL
invalid action이 있는 경우 따로 계산할 필요가 없기 때문에, 선택지에서 애초에 제고를 하여 에이전트가 잘 학습되게 해야 한다.
그래서 action masking은 제한 조건이 있는 경우에 이쪽에 적용하는 것이 가장 좋을 것으로 판단된다.
그래서 관련된 리서치를 진행해보고 있는 중이다.
관련 예제
- video game of snake
- automated stock trading
사례 및 간단 논문 설명
- DQN
- 적용 사례 있음
- PPO
- 적용 사례 없어서 논문 나옴
- Action Mask 씌우고 확률값 재조정
- Only valid actions are used in the collection of trajectory T.
- During stochastic descent, again only valid actions are used in the calculation of Eq.
- softmax 사용할 때 예
- K=4
- 1,2 유효하지 않음
- $y_k = \frac{exp(p_k)}{exp(p_3)+epx(p_4}$
- 적용 사례 없어서 논문 나옴
towardsdatascience.com/action-masking-with-rllib-5e4bec5e7505
www.sciencedirect.com/science/article/pii/S2405959520300746
728x90
'관심있는 주제 > RL' 카테고리의 다른 글
[RL] 강화학습 알고리즘 baseline 코드 URL (0) | 2020.11.27 |
---|---|
[Review] Distral: Robust Multitask Reinforcement Learning 논문 (0) | 2020.11.04 |
[Review / RL ] Deep Reinforcement Learning in Large Discrete Action Spaces (0) | 2020.10.24 |
RL multiple action space일 경우 단순 고민... (0) | 2020.10.24 |
RL Environment Open Source (0) | 2020.09.29 |