rl(29)
-
[RL ENV] 강화학습 자동차 환경
자율주행을 강화학습으로 해보고 싶은 사람들에게 유용한 환경일 것 같아서 공유합니다. https://decisionforce.github.io/pgdrive/ github.com/decisionforce/pgdrive/releases/download/pgdrive-0.1.1/BIG.mp4 papercodearxiv.org/pdf/2012.13681.pdfgithub.com/decisionforce/pgdriveimport pgdrive # Import this package to register the environment! import gym env = gym.make("PGDrive-v0", config=dict(use_render=True)) # env = pgdrive.PGDriveEnv(confi..
2021.01.05 -
[Research] Action Space 관련 자료 조사
www.lamda.nju.edu.cn/wanghan/pricai16.pdf arxiv.org/pdf/2004.00980.pdf Reddit에서 combined continuous and discrete action space 에 대해서 나온 글 www.reddit.com/r/MachineLearning/comments/c7tct4/d_reinforcement_learning_with_combined_continuous/ [D] Reinforcement learning with combined continuous and discrete action space? Hi, I'm working on a reinforcement learning project to teach an AI to play a video..
2021.01.03 -
[Review] Distral: Robust Multitask Reinforcement Learning 논문
2017년에 DeepMind에서 작성한 논문 대부분의 딥강화학습은 많은 시나리오에서, 그들의 적용 가능성이 제한되고, 복잡한 환경에 대해서 데이터 비효율적입니다. 데이터 효율성을 개선하기위한 한 가지 방향은 공유된 신경망 매개 변수를 사용한 멀티 태스킹 학습이며, 여기서 관련 작업 간의 전송을 통해 효율성을 개선 할 수 있습니다.그러나 실제로는 일반적으로 관찰되지 않습니다. 다른 작업의 기울기가 부정적으로 간섭하여 학습을 불안정하게 만들고 때로는 데이터 효율성이 떨어질 수 있기 때문입니다.또 다른 문제는 테스크간에 서로 다른 보상 체계가 있다는 것인데, 이는 공유 모델의 학습을 지배하는 한 테스크로 쉽게 이어질 수 있습니다. 그래서 딥마인드는 다중 테스크들의 조인트 트레이닝에 관한 새로운 접근을 제안한다..
2020.11.04 -
[Survey / RL] Action Masking 관련 자료
invalid action이 있는 경우 따로 계산할 필요가 없기 때문에, 선택지에서 애초에 제고를 하여 에이전트가 잘 학습되게 해야 한다. 그래서 action masking은 제한 조건이 있는 경우에 이쪽에 적용하는 것이 가장 좋을 것으로 판단된다. 그래서 관련된 리서치를 진행해보고 있는 중이다. 관련 예제 video game of snake automated stock trading 사례 및 간단 논문 설명 DQN 적용 사례 있음 PPO 적용 사례 없어서 논문 나옴 Action Mask 씌우고 확률값 재조정 Only valid actions are used in the collection of trajectory T. During stochastic descent, again only valid act..
2020.10.24 -
[Review / RL ] Deep Reinforcement Learning in Large Discrete Action Spaces
읽어보니, 현재 내가 찾고자 하는 주제와는 거리가 멀었지만, 추후에 살펴봐야 하는 부분이기에 한번 계속 읽어보기로 함. 아주 간략하게 말하면, 아주 큰 액션 공간을 기존 강화 학습 알고리즘에 맡겨서 학습을 시키는 것은 굉장히 어렵다고 말함. 그래서 저자는 이러한 문제를 해결하기 위해 pro-ation과 knn을 통해 action 선택을 축소한 것 같음. 그래서 본 저자의 논문에서는 state를 통해서 actor가 proto action인 action embedding을 얻게 되고, action embedding에 knn 방법론을 적용해서 action을 선택하는 2-step 전략을 제안함. Abstract 많은 수의 개별 행동이 있는 환경에서 추론할 수 있는 능력은 강화 학습을 더 큰 문제에 적용하는 데 ..
2020.10.24 -
RL multiple action space일 경우 단순 고민...
논문들을 찾아보려고 하고 있으나 키워드를 검색해도 나오지 않는 상황ㅜ 현재의 고민은 한 상태에서 에이전트가 동시에 여러개를 선택해야하는 상황 각 행동마다 2개 혹은 3개로 생각중 2개나 3개냐에 따라 사용되는 손실함수도 달라질틋함 고민중인 것은 다음과 같음 일단 통계적 지식이 부족해서 그런지는 몰라도 multiple label을 표현하는 분포는 없는 것 같음 그리고 현재 실력으로는 각 선택마다 의존성을 포함하는 것을 고려하지 못하기 때문에 독립성있다고 가정함 하지만 독립성인 것도 손실함수에는 없지만 나올때는 고려하고 싶음 그래서 생각한 것은 다음과 같음 1.독립성 고려 x shared representation에서 각각 행동을 정할 수 있는 하나의 레이어 생성 손실함수는 독립성과 쉽게 풀기위해 단순 합 ..
2020.10.24 -
Model-based RL 알아보기
강화 학습은 우리의 행동에 대한 보상을 극대화합니다. 아래 수식처럼, 보상들은 정책(Policy)과 시스템 역학(model)에 의존한다. model-free RL에서는, 모델을 무시한다. 보상을 평가하기 위해서 샘플링과 시뮬레이션에 의존한다. 그래서 우리는 시스템의 내부적인 작업을 알 필요가 없다. model-based RL에서는 만약 우리가 우리 스스로 cost function을 정의할 수 있다면, 직접적으로 model을 사용하여 최적의 action을 계산할 수 있다. RL은 크게 Model-free와 Model-based로 나눌 수 있다. 이 미디엄 글에서는 model을 어떻게 확립하고, 그것을 최선의 의사결정에 활용할 것인가에 대해 토론할 것이다. Terms Control Theory는 Model ..
2020.09.26 -
[RL] RL이 다른 ML가 다른 점을 보여주는 참고 자료들
https://medium.com/ai%C2%B3-theory-practice-business/reinforcement-learning-part-1-a-brief-introduction-a53a849771cf Reinforcement Learning, Part 1: A Brief Introduction What is Reinforcement Learning and how is it used? Find out in 5 minutes! medium.com https://www.prowler.io/blog/decision-making-for-the-real-world Secondmind - Decisions by people, empowered by AI. Secondmind closes the gap bet..
2020.09.06 -
강화학습 기초 자료 모음집
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN) https://greentec.github.io/reinforcement-learning-second/ 강화학습 알아보기(2) - DQN · greentec's blog 강화학습 알아보기(2) - DQN 01 Apr 2019 • 0 Comments 가치 함수, 감가율 지난 글에서는 강화학습에 대해 처음으로 알아보는 시간과 함께 감가율(discount rate), 가치 함수(value function) 등의 개념을 소개했� greentec.github.io https://naifmehanna.com/2018-10-18-implementing-sarsa-in-python/ Implementing SAR..
2020.07.18 -
Sarsa, Q-Learning , Expected Sarsa, Double Q-Learning 코드 비교하기
강화학습에서 빠르게 코드 비교를 해봤다. 거의 비슷하지만, 다른 부분이 있는 코드들인데, 어떤 식으로 다른지를 보고 싶었다. 막상 비교해보니 큰 차이는 없다는 것을 확인했다. Model-dependent and model-free reinforcement learning Model-dependent RL algorithms은 transition table이 있어야 작동을 한다. transition table은 에이전트가 존재하는 세계에서 성공하기 위해 필요한 모든 지식을 갖춘 테이블이라고 생각하면 된다. 당연히 그러한 테이블을 만드는 것은 매우 지루하며, 불가능하므로 모델 의존 학습 알고리즘은 실용적이지 못하다. Temporal Difference is a model-free reinforcement l..
2020.07.18 -
On-Policy와 Off-Policy Learning의 차이
최근에 on policy와 off policy learning의 차이점에 대한 의견을 나눌 때 잘 몰라서 가만히 있었다. 그래서 궁금해서 찾아보니 헷갈리는 사람이 또 있는 것 같았다. 그 사람은 Artificial intelligence 책에서 이렇게 설명하는데 차이점을 이해를 못하겠다고 한다. "An off-policy learner learns the value of the optimal policy independently of the agent's actions. Q-learning is an off-policy learner. An on-policy learner learns the value of the policy being carried out by the agent including th..
2020.07.11 -
Chapter 5 Monte-Carlo Learning 공부
이전에는 Dynamic Programming에 대해서 설명을 했고, Dynamic Programming에서 가지는 문제를 샘플링을 통해서 해결하는 Monte-Carlo 방식에 대해서 공부하고자 한다. 기존에 배운 Dynamic Programming은 MDP를 알고 있는 경우에 Bellman 방적식으로 풀어내서 GPI (Generalized Policy Iteration)을 따르는 방식으로 최적화 정책을 찾아냈습니다. 이제는 환경에 대한 정보를 알수 없는 즉 MDP를 알 수 없는 상황에서 환경과 직접적으로 상호작용하면서 경험을 통해서 학습하는 방식인 Model-free 방식에 대해서 말하고자 합니다. Model-free에서 Prediction 과 Control은 다음과 같습니다. Prediction은 가치..
2020.05.16