RL multiple action space일 경우 단순 고민...

2020. 10. 24. 13:11관심있는 주제/RL

728x90

논문들을 찾아보려고 하고 있으나 키워드를 검색해도 나오지 않는 상황ㅜ

현재의 고민은 한 상태에서 에이전트가 동시에 여러개를 선택해야하는 상황
각 행동마다 2개 혹은 3개로 생각중
2개나 3개냐에 따라 사용되는 손실함수도 달라질틋함

고민중인 것은 다음과 같음

일단 통계적 지식이 부족해서 그런지는 몰라도
multiple label을 표현하는 분포는 없는 것 같음
그리고 현재 실력으로는 각 선택마다 의존성을 포함하는 것을 고려하지 못하기 때문에 독립성있다고 가정함
하지만 독립성인 것도 손실함수에는 없지만 나올때는 고려하고 싶음

그래서 생각한 것은 다음과 같음

1.독립성 고려 x
shared representation에서 각각 행동을 정할 수 있는 하나의 레이어 생성
손실함수는 독립성과 쉽게 풀기위해 단순 합

2.독립성 조금이라도 고려
shared representation에서 전체 액션 스페이스를 생성라고 각 행동별로 나눠서 합으로 손실함수 계산
이렇게하면 손실함수는 집적적으로 의존성을 고려하지는
못하지만 액션을 뽑을 때 반영이 될것이라 판단..,

이것 말고 경험히나 좋은 의견있으시면 댓글에 남겨주세요!

728x90