RL multiple action space일 경우 단순 고민...
논문들을 찾아보려고 하고 있으나 키워드를 검색해도 나오지 않는 상황ㅜ 현재의 고민은 한 상태에서 에이전트가 동시에 여러개를 선택해야하는 상황 각 행동마다 2개 혹은 3개로 생각중 2개나 3개냐에 따라 사용되는 손실함수도 달라질틋함 고민중인 것은 다음과 같음 일단 통계적 지식이 부족해서 그런지는 몰라도 multiple label을 표현하는 분포는 없는 것 같음 그리고 현재 실력으로는 각 선택마다 의존성을 포함하는 것을 고려하지 못하기 때문에 독립성있다고 가정함 하지만 독립성인 것도 손실함수에는 없지만 나올때는 고려하고 싶음 그래서 생각한 것은 다음과 같음 1.독립성 고려 x shared representation에서 각각 행동을 정할 수 있는 하나의 레이어 생성 손실함수는 독립성과 쉽게 풀기위해 단순 합 ..
2020.10.24