관심있는 주제/RL(59)
-
[Survey / RL] Action Masking 관련 자료
invalid action이 있는 경우 따로 계산할 필요가 없기 때문에, 선택지에서 애초에 제고를 하여 에이전트가 잘 학습되게 해야 한다. 그래서 action masking은 제한 조건이 있는 경우에 이쪽에 적용하는 것이 가장 좋을 것으로 판단된다. 그래서 관련된 리서치를 진행해보고 있는 중이다. 관련 예제 video game of snake automated stock trading 사례 및 간단 논문 설명 DQN 적용 사례 있음 PPO 적용 사례 없어서 논문 나옴 Action Mask 씌우고 확률값 재조정 Only valid actions are used in the collection of trajectory T. During stochastic descent, again only valid act..
2020.10.24 -
[Review / RL ] Deep Reinforcement Learning in Large Discrete Action Spaces
읽어보니, 현재 내가 찾고자 하는 주제와는 거리가 멀었지만, 추후에 살펴봐야 하는 부분이기에 한번 계속 읽어보기로 함. 아주 간략하게 말하면, 아주 큰 액션 공간을 기존 강화 학습 알고리즘에 맡겨서 학습을 시키는 것은 굉장히 어렵다고 말함. 그래서 저자는 이러한 문제를 해결하기 위해 pro-ation과 knn을 통해 action 선택을 축소한 것 같음. 그래서 본 저자의 논문에서는 state를 통해서 actor가 proto action인 action embedding을 얻게 되고, action embedding에 knn 방법론을 적용해서 action을 선택하는 2-step 전략을 제안함. Abstract 많은 수의 개별 행동이 있는 환경에서 추론할 수 있는 능력은 강화 학습을 더 큰 문제에 적용하는 데 ..
2020.10.24 -
RL multiple action space일 경우 단순 고민...
논문들을 찾아보려고 하고 있으나 키워드를 검색해도 나오지 않는 상황ㅜ 현재의 고민은 한 상태에서 에이전트가 동시에 여러개를 선택해야하는 상황 각 행동마다 2개 혹은 3개로 생각중 2개나 3개냐에 따라 사용되는 손실함수도 달라질틋함 고민중인 것은 다음과 같음 일단 통계적 지식이 부족해서 그런지는 몰라도 multiple label을 표현하는 분포는 없는 것 같음 그리고 현재 실력으로는 각 선택마다 의존성을 포함하는 것을 고려하지 못하기 때문에 독립성있다고 가정함 하지만 독립성인 것도 손실함수에는 없지만 나올때는 고려하고 싶음 그래서 생각한 것은 다음과 같음 1.독립성 고려 x shared representation에서 각각 행동을 정할 수 있는 하나의 레이어 생성 손실함수는 독립성과 쉽게 풀기위해 단순 합 ..
2020.10.24 -
RL Environment Open Source
강화학습 오픈 소스 환경들을 정리해보고자 합니다. 혹시 더 아시는 것들이 있다면 댓글에 남겨주시면 감사합니다! 기준은 "파이썬에서 작동하면서, 오픈 라이센스로 되어있는 것들만" 입니다. paper 깃헙 링크 arxiv.org/abs/1907.11180 github.com/google-research/football colab.research.google.com/github/google-research/football/blob/master/gfootball/colabs/gfootball_example_from_prebuild.ipynb arxiv.org/abs/2006.13760?fbclid=IwAR1EEO5erBXVQlA55R5DYSvu3_RMM5nGos_Hg7nU9uXbHpvPYwA7vXjlI2I gi..
2020.09.29 -
Model-based RL 알아보기
강화 학습은 우리의 행동에 대한 보상을 극대화합니다. 아래 수식처럼, 보상들은 정책(Policy)과 시스템 역학(model)에 의존한다. model-free RL에서는, 모델을 무시한다. 보상을 평가하기 위해서 샘플링과 시뮬레이션에 의존한다. 그래서 우리는 시스템의 내부적인 작업을 알 필요가 없다. model-based RL에서는 만약 우리가 우리 스스로 cost function을 정의할 수 있다면, 직접적으로 model을 사용하여 최적의 action을 계산할 수 있다. RL은 크게 Model-free와 Model-based로 나눌 수 있다. 이 미디엄 글에서는 model을 어떻게 확립하고, 그것을 최선의 의사결정에 활용할 것인가에 대해 토론할 것이다. Terms Control Theory는 Model ..
2020.09.26 -
[RL] RL이 다른 ML가 다른 점을 보여주는 참고 자료들
https://medium.com/ai%C2%B3-theory-practice-business/reinforcement-learning-part-1-a-brief-introduction-a53a849771cf Reinforcement Learning, Part 1: A Brief Introduction What is Reinforcement Learning and how is it used? Find out in 5 minutes! medium.com https://www.prowler.io/blog/decision-making-for-the-real-world Secondmind - Decisions by people, empowered by AI. Secondmind closes the gap bet..
2020.09.06 -
[RL] Great Reward Function 만들 때 참고
Reward function의 모양은 shaping 하게 만들어야 학습이 원하는 대로 잘 될 수 있음. 언제 멈추는 지 조건을 주는 방법 보상을 음수로 줄 지 양수로 줄 지 정할 때 https://medium.com/@BonsaiAI/deep-reinforcement-learning-models-tips-tricks-for-writing-reward-functions-a84fe525e8e0 Deep Reinforcement Learning Models: Tips & Tricks for Writing Reward Functions In this post, I’m going to cover tricks and best practices for how to write the most effective rewa..
2020.09.06 -
[RL] Create Environment 만들 때 참고
Create Environment 참고 gym 공식 문서 https://github.com/openai/gym/blob/master/docs/creating-environments.md openai/gym A toolkit for developing and comparing reinforcement learning algorithms. - openai/gym github.com https://stackoverflow.com/questions/45068568/how-to-create-a-new-gym-environment-in-openai How to create a new gym environment in OpenAI? I have an assignment to make an AI Agent that w..
2020.09.06 -
[RL] Continuous Action 일 때 참고 (A2C)
A2C Continuous Reward (Online) https://github.com/hermesdt/reinforcement-learning/blob/master/a2c/pendulum_a2c_online.ipynb hermesdt/reinforcement-learning Contribute to hermesdt/reinforcement-learning development by creating an account on GitHub. github.com https://medium.com/deeplearningmadeeasy/advantage-actor-critic-continuous-case-implementation-f55ce5da6b4c Advantage Actor Critic continuou..
2020.09.06 -
N-STEP On-Policy SARSA, N-STEP Off-Policy SARSA wiht Importance Sampling, N-STEP Expected SARA 코드 비교해보기
N STEP SARSA On-Policy def gen_epsilon_greedy_policy(n_action, epsilon): def policy_function(state, Q): probs = torch.ones(n_action) * epsilon / n_action best_action = torch.argmax(Q[state]).item() probs[best_action] += 1.0 - epsilon action = torch.multinomial(probs, 1).item() return action return policy_function from collections import defaultdict def n_step_sarsa(env, gamma, n_episode, alpha ,..
2020.07.19 -
강화학습 기초 자료 모음집
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN) https://greentec.github.io/reinforcement-learning-second/ 강화학습 알아보기(2) - DQN · greentec's blog 강화학습 알아보기(2) - DQN 01 Apr 2019 • 0 Comments 가치 함수, 감가율 지난 글에서는 강화학습에 대해 처음으로 알아보는 시간과 함께 감가율(discount rate), 가치 함수(value function) 등의 개념을 소개했� greentec.github.io https://naifmehanna.com/2018-10-18-implementing-sarsa-in-python/ Implementing SAR..
2020.07.18 -
Sarsa, Q-Learning , Expected Sarsa, Double Q-Learning 코드 비교하기
강화학습에서 빠르게 코드 비교를 해봤다. 거의 비슷하지만, 다른 부분이 있는 코드들인데, 어떤 식으로 다른지를 보고 싶었다. 막상 비교해보니 큰 차이는 없다는 것을 확인했다. Model-dependent and model-free reinforcement learning Model-dependent RL algorithms은 transition table이 있어야 작동을 한다. transition table은 에이전트가 존재하는 세계에서 성공하기 위해 필요한 모든 지식을 갖춘 테이블이라고 생각하면 된다. 당연히 그러한 테이블을 만드는 것은 매우 지루하며, 불가능하므로 모델 의존 학습 알고리즘은 실용적이지 못하다. Temporal Difference is a model-free reinforcement l..
2020.07.18