2021. 10. 7. 22:22ㆍ관심있는 주제/RL
경험(experience)의 활용은 강화 학습(RL)에서 중요한 역할을 한다.
이 데이터를 가장 잘 사용하는 방법은 이 필드의 핵심 문제 중 하나입니다.
RL 에이전트가 최근 몇 년 동안 발전하면서 더 크고 복잡한 문제(Atari, Go, StarCraft, Dota)를 처리함에 따라 생성된 데이터의 크기와 복잡성이 모두 증가했습니다. 이러한 복잡성에 대처하기 위해 많은 RL 시스템은 학습 문제를 경험 생산자(행위자)와 경험 소비자(학습자)라는 두 개의 뚜렷한 부분으로 분할하여 이러한 서로 다른 부분을 병렬로 실행할 수 있도록 한다.
데이터 스토리지 시스템은 종종 이 두 구성 요소 사이의 교차점에 있습니다. 데이터를 효율적으로 저장하고 전송하는 방법에 대한 문제 자체가 어려운 엔지니어링 문제입니다.
딥마인드는 이 문제를 해결하기 위해 데이터 전송 및 스토리지를 위한 효율적이고 확장 가능하며 사용하기 쉬운 시스템인 Reverb를 출시했다.
Reverb의 장점 중 하나는 유연성이다. 심층 Q-Networks, 심층 결정론적 정책 그레이디언트, 소프트 액터-비판 등을 포함한 여러 오프 정책 알고리즘에서 중요한 구성요소인 경험 재생(prioritized or not)을 구현하는 데 사용할 수 있다.
그러나 Reverb는 FIFO, LIFO 및 힙 기반 대기열에도 사용할 수 있으므로 PPO 및 IMPALA와 같은 온 정책 방법을 사용할 수 있습니다. 또한 추가 알고리즘을 활성화하기 위해 LIFO 스택과 힙을 활용할 수도 있다고 합니다.
Reverb의 또 다른 강점은 효율성이다. 그것은 또한 최소한의 오버헤드로 많은 경험 생산자와 소비자가 병렬로 있는 대규모 RL 에이전트에서도 사용될 수 있다. 연구원들은 Revreb를 사용하여 수천 명의 동시 actor와 learner를 위한 경험 저장과 이동을 관리해 왔습니다.
이러한 확장성(Reverb의 유연성과 결합)을 통해 연구자는 다양한 확장이 필요한 문제에 알고리즘을 적용할 때 인프라 구성 요소를 변경할 걱정을 하지 않아도 됩니다.
또한 Reverb는 샘플링된 데이터 요소와 삽입된 데이터 요소의 비율을 제어하기 위해 사용하기 쉬운 메커니즘을 제공합니다. 이러한 형태의 제어는 단순하고 동기적인 환경에서 수행하기가 쉽지만, 많은 경험 생산자와 소비자와 함께 실행하기는 훨씬 더 어렵다. 사
용자는 RL 실험의 훈련 대비 데이터 수집의 상대적 비율을 제한하거나 제한함으로써 명시적으로 제어할 수 있다. 이는 지금까지 하기 어려웠던 것이다.
최근에 샘플에 대해서 어떻게 효율적으로 관리하는지에 대해서 관심이 있는데, 찾아보다가 얻게 된 논문이였다.
아쉽게도 현재는 파이토치를 사용하고 있어서, 구현된 결과를 사용할 수 없다 ㅠㅠ
누군가 올려주길 기다리거나 도전해보거나...
https://github.com/deepmind/reverb
https://arxiv.org/abs/2102.04736
https://deepmind.com/research/open-source/Reverb
'관심있는 주제 > RL' 카테고리의 다른 글
논문 리뷰) [TODO] Online Decision Transformer (0) | 2022.05.25 |
---|---|
[RL] PPO 학습 중에 nan 나오는 특이한 경우 (5) | 2022.05.12 |
RL) MARL 자료 모음 (2) | 2021.09.25 |
Paper) Neural Combinatorial Optimization with Reinforcement Learning - Not Finished... (0) | 2021.09.14 |
RL) 로봇 개발 플랫폼 Issac 자료 찾아보기 (0) | 2021.09.05 |