reinforcement learning(17)
-
Paper) Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method 읽어보기
오랜만에 강화학습 관련 논문 읽어보기개요 기존의 휴리스틱 알고리즘은 현실 세계의 제약을 충분히 반영하지 못하고 물류 성능을 정확하게 예측하는 데 한계가 있었습니다. 이 논문은 자동차 도장 공정의 색상 배칭 재순서화 문제를 최적화하기 위해 Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL)이라는 새로운 강화 학습 접근 방식을 제안합니다. 주요 기여 요소새로운 강화 학습 마르코프 결정 프로세스(MDP) 개발:FlexSim 시뮬레이터를 사용하여 환경을 설정하고 상태와 행동 공간을 정의합니다.상태는 시스템의 모든 슬롯을 나타내는 2D 배열로 구성됩니다.휴리스틱 알고리즘을 사용한 액션 마스킹:초기에는 MDP를 수정하여 기본 RL 알..
2024.06.22 -
[Paper][RL] [ToDo]Mutual Information State Intrinsic Control 리뷰
https://arxiv.org/abs/2103.08107#:~:text=Reinforcement%20learning%20has%20been%20shown,defining%20an%20intrinsic%20reward%20function. Mutual Information State Intrinsic Control Reinforcement learning has been shown to be highly successful at many challenging tasks. However, success heavily relies on well-shaped rewards. Intrinsically motivated RL attempts to remove this constraint by defining an..
2022.05.19 -
Paper) Neural Combinatorial Optimization with Reinforcement Learning - Not Finished...
목차 Abstract goal TSP 문제를 품 우리는 순회 판매원 문제(TSP)에 초점을 맞추고 일련의 도시 좌표가 주어진다면 다른 도시 순열에 대한 분포를 예측하는 반복 신경망을 훈련시킨다. negative tour length를 보상 신호로 사용하여 정책 기울기 방법을 사용하여 현재 신경망의 매개 변수를 최적화한다. 우리는 일련의 훈련에서 네트워크 매개 변수를 학습하는 것과 개별 시험 그래프에서 학습하는 것을 비교한다. 계산 비용에도 불구하고, 많은 엔지니어링 및 휴리스틱 설계 없이, 신경 조합 최적화는 최대 100개의 노드가 있는 2D 유클리드 그래프에서 최적의 결과에 가까운 결과를 달성한다. 또 다른 NP-난이도 문제인 KnapSack에 적용하면, 동일한 방법이 최대 200개의 항목이 있는 인스..
2021.09.14 -
Paper) Reinforcement Learning for Solving the Vehicle Routing Problem
https://arxiv.org/abs/1802.04240 해당 논문을 인용한 논문들 https://scholar.google.com/scholar?as_ylo=2021&hl=en&as_sdt=2005&sciodt=0,5&cites=7637833782499120275&scipsc= Google Scholar EG Talbi - ACM Computing Surveys (CSUR), 2021 - dl.acm.org During the past few years, research in applying machine learning (ML) to design efficient, effective, and robust metaheuristics has become increasingly popular. Many ..
2021.08.21 -
Env) Multiagnet CityFlow 환경
multiagnet rl 환경 관련 자료 공유 UI도 제공하고 있는 것 같고 배울 것이 많을 것 같아 공유합니다 cityflow.readthedocs.io/en/latest/ Welcome to CityFlow’s documentation! — CityFlow 0.1 documentation © Copyright 2019, CityFlow Revision 75f31b8c. cityflow.readthedocs.io arxiv.org/abs/1905.05217 CityFlow: A Multi-Agent Reinforcement Learning Environment for Large Scale City Traffic Scenario Traffic signal control is an emerging appl..
2021.05.05 -
RL) Mean Field Multi-Agent Reinforcement Learning 리뷰
특정 책에서 해당 논문에 대한 언급이 있고, 인용 수도 있는 것 같아서 리뷰해보려고 한다. 해당 논문을 통해서 MARL에 대한 이해도를 높여지길 기대한다. 해당 논문에서는 게임 이론을 적용하여 에이전틔의 정책 선택 문제를 해결하고 있다. 내쉬 균형 이론은 비협력적 게임에서 최적의 행동 정책을 찾기 위하여 중요하게 사용되는 것이고, 내쉬 균형에서 각 에이전트는 다른 에이전트의 행동이 주어졌을 때 다른 에이전트의 전략을 고려하여 최선의 선택을 하는 전략을 이용한다. 하지만 다수의 에이 전트 환경에서 고려할 상호작용의 수가 많아 내쉬 균형 전략을 찾기 어려운 문제가 있다 본 논문에서는 주변의 상호작용을 하나의 평균 상호 작용을 고려하여 문제의 복잡도를 줄인 다음 평균 상호 작용을 고려하여 문제의 복잡도를 줄인..
2021.04.23 -
Reinforcement Learning Use Case
Speeding design and product development Reinforcement learning can improve the development of products, engineering systems, manufacturing plants, oil refineries, telecommunications or utility networks, and other capital projects. Mining companies could, for example, explore a greater range of mine designs than possible with the other AI techniques used today to improve yield. One automotive man..
2021.04.08 -
[강화학습] Package MultiAgent Environments [SIMPLE] 자료 링크
Selfplay In MultiPlayer Environments github.com/davidADSP/SIMPLE davidADSP/SIMPLE Selfplay In MultiPlayer Environments. Contribute to davidADSP/SIMPLE development by creating an account on GitHub. github.com 나중에 한 번 뜯어봐서 배울 수 있는 점은 배워야겠다. About The Project Getting Started Prerequisites Installation Tutorial Quickstart Tensorboard Custom Environments Parallelisation Roadmap Contributing License C..
2021.02.22 -
[책] Deep Reinforcement Learning in Action Code Link
해당 코드에는 multi agent 관련 자료도 있어서 유용할 것 같아서 공유함. 번역된 책으로 보고 있는데, 내가 지식이 부족한지는 몰라도 굉장히 어렵게 들림. github.com/DeepReinforcementLearning/DeepReinforcementLearningInAction DeepReinforcementLearning/DeepReinforcementLearningInAction Code from the Deep Reinforcement Learning in Action book from Manning, Inc - DeepReinforcementLearning/DeepReinforcementLearningInAction github.com
2021.02.22 -
Bellman Equation (Value Function, Q Function) 써보기
다시 한번 정리해보기 stats.stackexchange.com/questions/243384/deriving-bellmans-equation-in-reinforcement-learning
2021.01.16 -
[Review] Imitation Learning with Concurrent Actions in 3D Games
좋은 논문인지는 모르겠지만, 일단 아이디어만 가져오기 위해서 빠르게 읽어 보려고 한다. 저자는 multi-action policies을 사용하면 single action selection기술을 사용할 때 달성하기 어려운 복잡한 행동을 학습할 수 있습니다. 거의 대부분의 강화학습들이 큰 action space에서 Single Action Per Time step(SAPS) policy로 복잡한 환경과 상호작용하면서 에이전트를 훈련을 시키고 있다. 예를 들어, 비디오 게임에서 스트라이핑 하고 촬영하는 동안 앞으로 달리는 것은 SAPS 아키텍처를 사용할 때 달성할 수 없는 전략이라고 한다. 그래서 보통 이러한 문제를 풀 때는 Multiple Action Per Time step(MAPS)가 필요로 하게 되는데..
2021.01.03 -
[Review] POMO: Policy Optimization with Multiple Optimafor Reinforcement Learnin
빠르게 아이디어만 보는 걸로 combinatorial optimization의 문제를 풀기 위해서 강화 학습을 적용함. 조합 최적화에서 일반적으로 NP-hard(Nondeterministic polynomial (NP)) 즉 다항시간내에 풀 수 없는 문제에 적용한다고 한다. NP-Hard는 TSP문제와 같이 모든 경우의 수를 일일히 확인해보는 방법 이외에는 다항식처럼 답을 풀이할 수 없는 문제들을 말한다고 한다. (외판원 문제) 저자는 Policy Optimization with Multiple Optima(POMO)를 도입한다고 한다. 그래서 여기서는 TSP(Traveling salesman) , capacitated vehicle routing (CVRP), and 0-1 knapsack (KP).과..
2020.12.18