rl(29)
-
Paper) Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method 읽어보기
오랜만에 강화학습 관련 논문 읽어보기개요 기존의 휴리스틱 알고리즘은 현실 세계의 제약을 충분히 반영하지 못하고 물류 성능을 정확하게 예측하는 데 한계가 있었습니다. 이 논문은 자동차 도장 공정의 색상 배칭 재순서화 문제를 최적화하기 위해 Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL)이라는 새로운 강화 학습 접근 방식을 제안합니다. 주요 기여 요소새로운 강화 학습 마르코프 결정 프로세스(MDP) 개발:FlexSim 시뮬레이터를 사용하여 환경을 설정하고 상태와 행동 공간을 정의합니다.상태는 시스템의 모든 슬롯을 나타내는 2D 배열로 구성됩니다.휴리스틱 알고리즘을 사용한 액션 마스킹:초기에는 MDP를 수정하여 기본 RL 알..
2024.06.22 -
[Paper][RL] [ToDo]Mutual Information State Intrinsic Control 리뷰
https://arxiv.org/abs/2103.08107#:~:text=Reinforcement%20learning%20has%20been%20shown,defining%20an%20intrinsic%20reward%20function. Mutual Information State Intrinsic Control Reinforcement learning has been shown to be highly successful at many challenging tasks. However, success heavily relies on well-shaped rewards. Intrinsically motivated RL attempts to remove this constraint by defining an..
2022.05.19 -
진행중) Reverb: a framework for experience replay 알아보기
경험(experience)의 활용은 강화 학습(RL)에서 중요한 역할을 한다. 이 데이터를 가장 잘 사용하는 방법은 이 필드의 핵심 문제 중 하나입니다. RL 에이전트가 최근 몇 년 동안 발전하면서 더 크고 복잡한 문제(Atari, Go, StarCraft, Dota)를 처리함에 따라 생성된 데이터의 크기와 복잡성이 모두 증가했습니다. 이러한 복잡성에 대처하기 위해 많은 RL 시스템은 학습 문제를 경험 생산자(행위자)와 경험 소비자(학습자)라는 두 개의 뚜렷한 부분으로 분할하여 이러한 서로 다른 부분을 병렬로 실행할 수 있도록 한다. 데이터 스토리지 시스템은 종종 이 두 구성 요소 사이의 교차점에 있습니다. 데이터를 효율적으로 저장하고 전송하는 방법에 대한 문제 자체가 어려운 엔지니어링 문제입니다. 딥마..
2021.10.07 -
RL) 로봇 개발 플랫폼 Issac 자료 찾아보기
nivida에서 issac gym에 대한 소개가 있어서 자료만 찾아봤다. 결국 말하고자하는 것은 기존 물리환경을 다 gpu에서 돌게 했다는 것이 최근에 강조하는 것 같고, 그래서 자기네 gpu사서 로봇 연구해 약간 이런 느낌으로 들린다. 2017 11 1 https://www.google.com/url?sa=t&source=web&rct=j&url=http://on-demand.gputechconf.com/gtcdc/2017/presentation/dc7125-nvidia-isaac-virtual-environments-for-robot-ai.pdf&ved=2ahUKEwiHntXbzefyAhWSK5QKHZW4CwwQFnoECBYQAQ&usg=AOvVaw1xCtISu5qJhHfN43107m-b&cshid=..
2021.09.05 -
Paper) Reinforcement Learning for Solving the Vehicle Routing Problem
https://arxiv.org/abs/1802.04240 해당 논문을 인용한 논문들 https://scholar.google.com/scholar?as_ylo=2021&hl=en&as_sdt=2005&sciodt=0,5&cites=7637833782499120275&scipsc= Google Scholar EG Talbi - ACM Computing Surveys (CSUR), 2021 - dl.acm.org During the past few years, research in applying machine learning (ML) to design efficient, effective, and robust metaheuristics has become increasingly popular. Many ..
2021.08.21 -
RL) Reinforcement Learning for Portfolio Management - 논문
목차 Abstract 50년 동안 nonstationarity, poor predictive bahaviour, weak historical coupling과 같은 금융 시장의 행동 방식을 모델링하는 것에 대해 과학계에서는 관심을 끌었고, 지속적인 노력을 하고 있다. 전통적으로 신호 처리(signal processing) 및 제어 이론(Contro Theory)의 맥락에서 dynamic system의 수학적 공식은 금융 엔지니어링의 핵심이였다. 보다 최근에는 강화 학습 개념을 통해 순차적 의사결정의 진보는 순차적 포트폴리오 최적화 전략의 핵심 요소인 다단계 확률적 최적화(multistage stochastic optimization)의 개발에 있어 중요한 역할을 해왔다. 본 논문에서는 전통적인 시스템 인..
2021.07.19 -
Paper) Multi-Agent Game Abstraction via Graph Attention Neural Network
간단하게 확인해보기 MultiAgent RL에서 에이전트 수가 많고 복잡한 게임 관계로 인해 POLICY LEARNING에 많은 어려움을 겪는다고 한다. 그래서 학습 과정을 단순화하는 것도 MARL에서는 중요한 연구 대상이다. 대부분 MARL에서 지역적으로 에이전트 간의 상호작용이 발생하는 경우가 많아서, 다른 모든 에이전트에 대한 것들을 다 조정할 필요는 없습니다. 기존 방법에서는 미리 정의된 규칙을 사용하여 에이전트 간의 상호 작용 관계를 확보하려고 합니다. 그러나 에이전트 간의 복잡한 상호작용을 규칙으로 변환하기가 어렵기 때문에 대규모 환경에서는 방법을 직접 사용할 수 없습니다. 그래서 본 논문에서는 COMPLETE GRAPH로 에이전트 간의 관계를 모델링하고, 두 에이전트 간의 상호 작용 여부와 ..
2021.07.03 -
Paper) PettingZoo (MARL Environment) 논문 읽어보기
일단 테스를 해봤을 때 잘 작동하는 것을 확인하였고, 궁금해서 더 찾아보니, 논문까지도 나와있었다. 그래서 왜 이런 게 논문까지 나왔을까 보니, 여러 환경들을 비교해보고 적합한 Environment라는 것을 주장하기 위해 논문이 나온 것 같다. 그래서 앞으로 MARL 환경 구축시에 참고할 수 있을 것 같아 빠르게 읽어보고자 한다. 본 논문에서는 PettingZoo 라이브러리와 함께 제공되는 에이전트 환경 사이클("AEC") 게임 모델을 소개한다. PettingZoo는 범용적이고 우아한 Python API를 가진 다양한 다중 에이전트 환경들의 라이브러리이다. PettingZoo는 Multi-에이전트 강화 학습("MARL")에 대한 연구를 가속화하는 것을 목표로 개발되었으며, 이는 개방형과 유사한 방식으로 ..
2021.06.19 -
Paper) Decision Transformer: Reinforcement Learning via Sequence Modeling
트랜스포머에 강화학습 적용하는 것 관련 논문인 듯 확인할 리스트에 추가 Abstract 시퀀스 모델링 문제로 강화 학습(RL)을 추상화하는 프레임워크를 소개. 트랜스포머 아키텍처의 단순성과 확장성, 그리고 GPT-x 및 BERT와 같은 언어 모델링의 관련 발전을 이용 가능. 특히, 우리는 RL의 문제를 조건부 시퀀스 모델링으로 캐스팅하는 아키텍처인 decision transformer를 제시 value function을 fit 또는 policy gradient를 계산하는 RL에 대한 이전 접근법과 달리, decision transformer는 인과적으로 마스크된 transforemr를 활용하여 최적의 동작을 출력 가능 원하는 수익(보상), 과거 상태 및 조치에 대한 자기 회귀 모델(autoregressi..
2021.06.08 -
Paper) Reward is Enough 관련 자료
deepmind 에서 낸 논문인 것 같다. deepmind에서 낸 논문이라서 흥미있었지만, 내가 많은 유명한 학자들은 모르지만, David Silver, Richard S.Sutton 두 사람이 있는 것으로 보고, 꼭 봐야할 필요성을 느꼈다. 21/05/31 기준으로 아직 논문을 무료로 다운로드 할 수는 없는 상황이다. 그래도 david silver나 특정 분이 설명을 해주는 영상이 있어 공유를 한다. 아직 잘 모르겠지만, 큰 의미는 각각의 전문화된 에이전트를 구성하지 않아도 충분히 일반화된 에이전트를 구할 수 있다?... 이런 느낌인 것 같다. https://www.youtube.com/watch?v=_MduRkr6r6c https://www.youtube.com/watch?v=dmH1ZpcROMk
2021.05.31 -
RL) REALab: Conceptualising the Tampering Problem 설명
해당 이론이 딥 마인드에서도 중요하게 다루는 것 같은데, 사실 먼가 크게 와 닿지가 않는다 ㅠㅠ 관련된 논문에서 다음과 같은 연구 트렌드가 있었다. 두 개의 새로운 논문에서 우리는 시뮬레이션의 tempering를 연구 첫 번째 논문은 환경 물리학의 자연스러운 부분을 조작하는 REALab이라는 플랫폼을 설명 두 번째 논문은 여러 딥러닝 알고리즘의 temparing 동작을 연구하고 분리된 승인 알고리즘이 이론과 실제 모두에서 temparing를 방지함을 보여줍니다. AI 에이전트에 대한 목표를 제공하는 것은 어려운 문제가 될 수 있습니다. 한가지 어려운 점은 올바른 목적함수를 제시하는 것이다. (the specification gaming problem) 두 번째 어려움은 에이전트가 손상된 버전이 아닌 우리..
2021.04.20 -
[책] Deep Reinforcement Learning in Action Code Link
해당 코드에는 multi agent 관련 자료도 있어서 유용할 것 같아서 공유함. 번역된 책으로 보고 있는데, 내가 지식이 부족한지는 몰라도 굉장히 어렵게 들림. github.com/DeepReinforcementLearning/DeepReinforcementLearningInAction DeepReinforcementLearning/DeepReinforcementLearningInAction Code from the Deep Reinforcement Learning in Action book from Manning, Inc - DeepReinforcementLearning/DeepReinforcementLearningInAction github.com
2021.02.22