'관심있는 주제/RL' 카테고리의 글 목록

오랜만에 강화학습 관련 논문 읽어보기개요 기존의 휴리스틱 알고리즘은 현실 세계의 제약을 충분히 반영하지 못하고 물류 성능을 정확하게 예측하는 데 한계가 있었습니다. 이 논문은 자동차 도장 공정의 색상 배칭 재순서화 문제를 최적화하기 위해 Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL)이라는 새로운 강화 학습 접근 방식을 제안합니다. 주요 기여 요소새로운 강화 학습 마르코프 결정 프로세스(MDP) 개발:FlexSim 시뮬레이터를 사용하여 환경을 설정하고 상태와 행동 공간을 정의합니다.상태는 시스템의 모든 슬롯을 나타내는 2D 배열로 구성됩니다.휴리스틱 알고리즘을 사용한 액션 마스킹:초기에는 MDP를 수정하여 기본 RL 알..

시간이 나면 보는 걸로... https://arxiv.org/abs/2202.05607 Online Decision Transformer Recent work has shown that offline reinforcement learning (RL) can be formulated as a sequence modeling problem (Chen et al., 2021; Janner et al., 2021) and solved via approaches similar to large-scale language modeling. However, any practical instantiatio arxiv.org

강화 학습 학습 도중에 에러가 나는 경우를 공유한다. 바로 액션 공간이 좀 큰 상황에서 특정 값이 너무 작게 나오는 데 선택하는 경우이다. 아래처럼 예시를 만들면 다음과 같다. 특정 logit들은 엄청 크게 나오지만, 한 개의 logit은 엄청 작게 나오는 데 그것을 선택하는 경우 문제가 발생한다. 바로 아래와 같은 경우이다. logit = torch.randint(low=1000000,high=2000000,size=(1,128*128*2)) logit[0,0] = 1e-4567 dist = Categorical(logits=logit) log_prob = dist.log_prob(torch.tensor([0])) ## tensor([-1999934.]) PPO에서는 아시다시피 old log prob와..

경험(experience)의 활용은 강화 학습(RL)에서 중요한 역할을 한다. 이 데이터를 가장 잘 사용하는 방법은 이 필드의 핵심 문제 중 하나입니다. RL 에이전트가 최근 몇 년 동안 발전하면서 더 크고 복잡한 문제(Atari, Go, StarCraft, Dota)를 처리함에 따라 생성된 데이터의 크기와 복잡성이 모두 증가했습니다. 이러한 복잡성에 대처하기 위해 많은 RL 시스템은 학습 문제를 경험 생산자(행위자)와 경험 소비자(학습자)라는 두 개의 뚜렷한 부분으로 분할하여 이러한 서로 다른 부분을 병렬로 실행할 수 있도록 한다. 데이터 스토리지 시스템은 종종 이 두 구성 요소 사이의 교차점에 있습니다. 데이터를 효율적으로 저장하고 전송하는 방법에 대한 문제 자체가 어려운 엔지니어링 문제입니다. 딥마..

MARL을 다시 공부하려고 하니, 어디서부터 시작할지 몰라서 자료 조사부터 시작하였다. 현재 간단하게 Single Agent 방식으로 MARL 적용하는 Naive Learning으로 진행 중인데, 생각보다 성능이 나오지 않고, 원인이 파악이 안되서 미뤄왔던 공부를 다시 해보고자 한다... 아직 필자도 아래 내용을 다 본 게 아니라서, 좋은 링크라고 판단은 할 수 없지만 일단 공부하시는 분들한테 도움이 되었으면 좋겠기에 공유합니다…. Challenge Credit Assignment Problem CONTENT URL 자료시기 분류 MARL PAPER (Papers with code) https://paperswithcode.com/task/multi-agent-reinforcement-learning 계..

목차 Abstract goal TSP 문제를 품 우리는 순회 판매원 문제(TSP)에 초점을 맞추고 일련의 도시 좌표가 주어진다면 다른 도시 순열에 대한 분포를 예측하는 반복 신경망을 훈련시킨다. negative tour length를 보상 신호로 사용하여 정책 기울기 방법을 사용하여 현재 신경망의 매개 변수를 최적화한다. 우리는 일련의 훈련에서 네트워크 매개 변수를 학습하는 것과 개별 시험 그래프에서 학습하는 것을 비교한다. 계산 비용에도 불구하고, 많은 엔지니어링 및 휴리스틱 설계 없이, 신경 조합 최적화는 최대 100개의 노드가 있는 2D 유클리드 그래프에서 최적의 결과에 가까운 결과를 달성한다. 또 다른 NP-난이도 문제인 KnapSack에 적용하면, 동일한 방법이 최대 200개의 항목이 있는 인스..

nivida에서 issac gym에 대한 소개가 있어서 자료만 찾아봤다. 결국 말하고자하는 것은 기존 물리환경을 다 gpu에서 돌게 했다는 것이 최근에 강조하는 것 같고, 그래서 자기네 gpu사서 로봇 연구해 약간 이런 느낌으로 들린다. 2017 11 1 https://www.google.com/url?sa=t&source=web&rct=j&url=http://on-demand.gputechconf.com/gtcdc/2017/presentation/dc7125-nvidia-isaac-virtual-environments-for-robot-ai.pdf&ved=2ahUKEwiHntXbzefyAhWSK5QKHZW4CwwQFnoECBYQAQ&usg=AOvVaw1xCtISu5qJhHfN43107m-b&cshid=..

https://arxiv.org/abs/1802.04240 해당 논문을 인용한 논문들 https://scholar.google.com/scholar?as_ylo=2021&hl=en&as_sdt=2005&sciodt=0,5&cites=7637833782499120275&scipsc= Google Scholar EG Talbi - ACM Computing Surveys (CSUR), 2021 - dl.acm.org During the past few years, research in applying machine learning (ML) to design efficient, effective, and robust metaheuristics has become increasingly popular. Many ..

목차 Abstract 50년 동안 nonstationarity, poor predictive bahaviour, weak historical coupling과 같은 금융 시장의 행동 방식을 모델링하는 것에 대해 과학계에서는 관심을 끌었고, 지속적인 노력을 하고 있다. 전통적으로 신호 처리(signal processing) 및 제어 이론(Contro Theory)의 맥락에서 dynamic system의 수학적 공식은 금융 엔지니어링의 핵심이였다. 보다 최근에는 강화 학습 개념을 통해 순차적 의사결정의 진보는 순차적 포트폴리오 최적화 전략의 핵심 요소인 다단계 확률적 최적화(multistage stochastic optimization)의 개발에 있어 중요한 역할을 해왔다. 본 논문에서는 전통적인 시스템 인..

간단하게 확인해보기 MultiAgent RL에서 에이전트 수가 많고 복잡한 게임 관계로 인해 POLICY LEARNING에 많은 어려움을 겪는다고 한다. 그래서 학습 과정을 단순화하는 것도 MARL에서는 중요한 연구 대상이다. 대부분 MARL에서 지역적으로 에이전트 간의 상호작용이 발생하는 경우가 많아서, 다른 모든 에이전트에 대한 것들을 다 조정할 필요는 없습니다. 기존 방법에서는 미리 정의된 규칙을 사용하여 에이전트 간의 상호 작용 관계를 확보하려고 합니다. 그러나 에이전트 간의 복잡한 상호작용을 규칙으로 변환하기가 어렵기 때문에 대규모 환경에서는 방법을 직접 사용할 수 없습니다. 그래서 본 논문에서는 COMPLETE GRAPH로 에이전트 간의 관계를 모델링하고, 두 에이전트 간의 상호 작용 여부와 ..

일단 테스를 해봤을 때 잘 작동하는 것을 확인하였고, 궁금해서 더 찾아보니, 논문까지도 나와있었다. 그래서 왜 이런 게 논문까지 나왔을까 보니, 여러 환경들을 비교해보고 적합한 Environment라는 것을 주장하기 위해 논문이 나온 것 같다. 그래서 앞으로 MARL 환경 구축시에 참고할 수 있을 것 같아 빠르게 읽어보고자 한다. 본 논문에서는 PettingZoo 라이브러리와 함께 제공되는 에이전트 환경 사이클("AEC") 게임 모델을 소개한다. PettingZoo는 범용적이고 우아한 Python API를 가진 다양한 다중 에이전트 환경들의 라이브러리이다. PettingZoo는 Multi-에이전트 강화 학습("MARL")에 대한 연구를 가속화하는 것을 목표로 개발되었으며, 이는 개방형과 유사한 방식으로 ..

트랜스포머에 강화학습 적용하는 것 관련 논문인 듯 확인할 리스트에 추가 Abstract 시퀀스 모델링 문제로 강화 학습(RL)을 추상화하는 프레임워크를 소개. 트랜스포머 아키텍처의 단순성과 확장성, 그리고 GPT-x 및 BERT와 같은 언어 모델링의 관련 발전을 이용 가능. 특히, 우리는 RL의 문제를 조건부 시퀀스 모델링으로 캐스팅하는 아키텍처인 decision transformer를 제시 value function을 fit 또는 policy gradient를 계산하는 RL에 대한 이전 접근법과 달리, decision transformer는 인과적으로 마스크된 transforemr를 활용하여 최적의 동작을 출력 가능 원하는 수익(보상), 과거 상태 및 조치에 대한 자기 회귀 모델(autoregressi..

AI 도구

AI 도구 사이드 패널

티스토리툴바