관심있는 주제/RL(59)
-
Reinforcement Learning Use Case
Speeding design and product development Reinforcement learning can improve the development of products, engineering systems, manufacturing plants, oil refineries, telecommunications or utility networks, and other capital projects. Mining companies could, for example, explore a greater range of mine designs than possible with the other AI techniques used today to improve yield. One automotive man..
2021.04.08 -
[강화학습] Package MultiAgent Environments [SIMPLE] 자료 링크
Selfplay In MultiPlayer Environments github.com/davidADSP/SIMPLE davidADSP/SIMPLE Selfplay In MultiPlayer Environments. Contribute to davidADSP/SIMPLE development by creating an account on GitHub. github.com 나중에 한 번 뜯어봐서 배울 수 있는 점은 배워야겠다. About The Project Getting Started Prerequisites Installation Tutorial Quickstart Tensorboard Custom Environments Parallelisation Roadmap Contributing License C..
2021.02.22 -
[Review] CURL: Contrastive Unsupervised Representations for Reinforcement Learning
논문 리뷰) CURL : Contrastive Unsupervised Representations for Reinforcement Learning. Abstract CURL이라는 것은 강화학습에서 Contrastive를 사용한 비지도 방법을 의미한다. CURL은 constrastive learning을 사용하여 원래의 픽셀로부터 고차원의 피처를 뽑아내고, 추출된 피처로 off-policy control를 수행한다. CURL 은 복잡한 테스크(DeepMind Control Suite and Atari Games)에서 기존의 pixel based를 사용한 방법론(model-based , model-free)을 뛰어넘은 성능을 보였다고 한다. (1.9, 1.2배) Introduction 강화학습은 고차원의 데..
2021.02.13 -
Bellman Equation (Value Function, Q Function) 써보기
다시 한번 정리해보기 stats.stackexchange.com/questions/243384/deriving-bellmans-equation-in-reinforcement-learning
2021.01.16 -
[RL ENV] 강화학습 자동차 환경
자율주행을 강화학습으로 해보고 싶은 사람들에게 유용한 환경일 것 같아서 공유합니다. https://decisionforce.github.io/pgdrive/ github.com/decisionforce/pgdrive/releases/download/pgdrive-0.1.1/BIG.mp4 papercodearxiv.org/pdf/2012.13681.pdfgithub.com/decisionforce/pgdriveimport pgdrive # Import this package to register the environment! import gym env = gym.make("PGDrive-v0", config=dict(use_render=True)) # env = pgdrive.PGDriveEnv(confi..
2021.01.05 -
[Research] Action Space 관련 자료 조사
www.lamda.nju.edu.cn/wanghan/pricai16.pdf arxiv.org/pdf/2004.00980.pdf Reddit에서 combined continuous and discrete action space 에 대해서 나온 글 www.reddit.com/r/MachineLearning/comments/c7tct4/d_reinforcement_learning_with_combined_continuous/ [D] Reinforcement learning with combined continuous and discrete action space? Hi, I'm working on a reinforcement learning project to teach an AI to play a video..
2021.01.03 -
[Review] Imitation Learning with Concurrent Actions in 3D Games
좋은 논문인지는 모르겠지만, 일단 아이디어만 가져오기 위해서 빠르게 읽어 보려고 한다. 저자는 multi-action policies을 사용하면 single action selection기술을 사용할 때 달성하기 어려운 복잡한 행동을 학습할 수 있습니다. 거의 대부분의 강화학습들이 큰 action space에서 Single Action Per Time step(SAPS) policy로 복잡한 환경과 상호작용하면서 에이전트를 훈련을 시키고 있다. 예를 들어, 비디오 게임에서 스트라이핑 하고 촬영하는 동안 앞으로 달리는 것은 SAPS 아키텍처를 사용할 때 달성할 수 없는 전략이라고 한다. 그래서 보통 이러한 문제를 풀 때는 Multiple Action Per Time step(MAPS)가 필요로 하게 되는데..
2021.01.03 -
[Review] POMO: Policy Optimization with Multiple Optimafor Reinforcement Learnin
빠르게 아이디어만 보는 걸로 combinatorial optimization의 문제를 풀기 위해서 강화 학습을 적용함. 조합 최적화에서 일반적으로 NP-hard(Nondeterministic polynomial (NP)) 즉 다항시간내에 풀 수 없는 문제에 적용한다고 한다. NP-Hard는 TSP문제와 같이 모든 경우의 수를 일일히 확인해보는 방법 이외에는 다항식처럼 답을 풀이할 수 없는 문제들을 말한다고 한다. (외판원 문제) 저자는 Policy Optimization with Multiple Optima(POMO)를 도입한다고 한다. 그래서 여기서는 TSP(Traveling salesman) , capacitated vehicle routing (CVRP), and 0-1 knapsack (KP).과..
2020.12.18 -
[RL] 로봇 관련 시뮬레이터 URL
github.com/Unity-Technologies/Unity-Robotics-Hub Unity-Technologies/Unity-Robotics-Hub Central repository for tools, tutorials, resources, and documentation for robotic simulation in Unity. - Unity-Technologies/Unity-Robotics-Hub github.com github.com/facebookresearch/pyrobot facebookresearch/pyrobot PyRobot: An Open Source Robotics Research Platform - facebookresearch/pyrobot github.com github...
2020.12.02 -
[Review] Hyp-RL : Hyperparameter Optimization by Reinforcement Learning
강화학습으로 하이퍼 파라미터 최적화에 어떻게 사용하는지 아이디어를 얻기 위해 논문을 빠르게 읽어보려고 한다. 하이퍼 파라미터 튜닝은 모든 모델에 대한 최신 성능을 얻기 위한 필수 요소이므로 머신 러닝에서 어디에나 존재하는 문제이다. 대부분 GRID 하게 파라미터를 서치 하는 방법인 GRID Search부터 최근에는 surrogate model을 이용하여 다음 하이퍼 파라미터를 얻을 수 있는 Sequential Model-based Bayesian Optimization (SMBO) 방법론들이 있다. 이 논문에선 sequential decision 문제로써 하이퍼 파리미터 최적화를 접근하여 강화 학습을 적용하려고 한다. 강화학습 기반으로 하기 때문에 SMBO 같이 heuristic 한 acquisition..
2020.11.28 -
[RL] 강화학습 알고리즘 baseline 코드 URL
github.com/openai/baselines/tree/master/baselines openai/baselines OpenAI Baselines: high-quality implementations of reinforcement learning algorithms - openai/baselines github.com stable-baselines.readthedocs.io/en/master/modules/a2c.html A2C — Stable Baselines 2.10.2a0 documentation (np.ndarray, np.ndarray) the model’s action and the next state (used in recurrent policies) stable-baselines.rea..
2020.11.27 -
[Review] Distral: Robust Multitask Reinforcement Learning 논문
2017년에 DeepMind에서 작성한 논문 대부분의 딥강화학습은 많은 시나리오에서, 그들의 적용 가능성이 제한되고, 복잡한 환경에 대해서 데이터 비효율적입니다. 데이터 효율성을 개선하기위한 한 가지 방향은 공유된 신경망 매개 변수를 사용한 멀티 태스킹 학습이며, 여기서 관련 작업 간의 전송을 통해 효율성을 개선 할 수 있습니다.그러나 실제로는 일반적으로 관찰되지 않습니다. 다른 작업의 기울기가 부정적으로 간섭하여 학습을 불안정하게 만들고 때로는 데이터 효율성이 떨어질 수 있기 때문입니다.또 다른 문제는 테스크간에 서로 다른 보상 체계가 있다는 것인데, 이는 공유 모델의 학습을 지배하는 한 테스크로 쉽게 이어질 수 있습니다. 그래서 딥마인드는 다중 테스크들의 조인트 트레이닝에 관한 새로운 접근을 제안한다..
2020.11.04