관심있는 주제(236)
-
[RL] RL이 다른 ML가 다른 점을 보여주는 참고 자료들
https://medium.com/ai%C2%B3-theory-practice-business/reinforcement-learning-part-1-a-brief-introduction-a53a849771cf Reinforcement Learning, Part 1: A Brief Introduction What is Reinforcement Learning and how is it used? Find out in 5 minutes! medium.com https://www.prowler.io/blog/decision-making-for-the-real-world Secondmind - Decisions by people, empowered by AI. Secondmind closes the gap bet..
2020.09.06 -
[RL] Great Reward Function 만들 때 참고
Reward function의 모양은 shaping 하게 만들어야 학습이 원하는 대로 잘 될 수 있음. 언제 멈추는 지 조건을 주는 방법 보상을 음수로 줄 지 양수로 줄 지 정할 때 https://medium.com/@BonsaiAI/deep-reinforcement-learning-models-tips-tricks-for-writing-reward-functions-a84fe525e8e0 Deep Reinforcement Learning Models: Tips & Tricks for Writing Reward Functions In this post, I’m going to cover tricks and best practices for how to write the most effective rewa..
2020.09.06 -
[RL] Create Environment 만들 때 참고
Create Environment 참고 gym 공식 문서 https://github.com/openai/gym/blob/master/docs/creating-environments.md openai/gym A toolkit for developing and comparing reinforcement learning algorithms. - openai/gym github.com https://stackoverflow.com/questions/45068568/how-to-create-a-new-gym-environment-in-openai How to create a new gym environment in OpenAI? I have an assignment to make an AI Agent that w..
2020.09.06 -
[RL] Continuous Action 일 때 참고 (A2C)
A2C Continuous Reward (Online) https://github.com/hermesdt/reinforcement-learning/blob/master/a2c/pendulum_a2c_online.ipynb hermesdt/reinforcement-learning Contribute to hermesdt/reinforcement-learning development by creating an account on GitHub. github.com https://medium.com/deeplearningmadeeasy/advantage-actor-critic-continuous-case-implementation-f55ce5da6b4c Advantage Actor Critic continuou..
2020.09.06 -
N-STEP On-Policy SARSA, N-STEP Off-Policy SARSA wiht Importance Sampling, N-STEP Expected SARA 코드 비교해보기
N STEP SARSA On-Policy def gen_epsilon_greedy_policy(n_action, epsilon): def policy_function(state, Q): probs = torch.ones(n_action) * epsilon / n_action best_action = torch.argmax(Q[state]).item() probs[best_action] += 1.0 - epsilon action = torch.multinomial(probs, 1).item() return action return policy_function from collections import defaultdict def n_step_sarsa(env, gamma, n_episode, alpha ,..
2020.07.19 -
강화학습 기초 자료 모음집
강화학습 기초부터 DQN까지 (Reinforcement Learning from Basics to DQN) https://greentec.github.io/reinforcement-learning-second/ 강화학습 알아보기(2) - DQN · greentec's blog 강화학습 알아보기(2) - DQN 01 Apr 2019 • 0 Comments 가치 함수, 감가율 지난 글에서는 강화학습에 대해 처음으로 알아보는 시간과 함께 감가율(discount rate), 가치 함수(value function) 등의 개념을 소개했� greentec.github.io https://naifmehanna.com/2018-10-18-implementing-sarsa-in-python/ Implementing SAR..
2020.07.18 -
Sarsa, Q-Learning , Expected Sarsa, Double Q-Learning 코드 비교하기
강화학습에서 빠르게 코드 비교를 해봤다. 거의 비슷하지만, 다른 부분이 있는 코드들인데, 어떤 식으로 다른지를 보고 싶었다. 막상 비교해보니 큰 차이는 없다는 것을 확인했다. Model-dependent and model-free reinforcement learning Model-dependent RL algorithms은 transition table이 있어야 작동을 한다. transition table은 에이전트가 존재하는 세계에서 성공하기 위해 필요한 모든 지식을 갖춘 테이블이라고 생각하면 된다. 당연히 그러한 테이블을 만드는 것은 매우 지루하며, 불가능하므로 모델 의존 학습 알고리즘은 실용적이지 못하다. Temporal Difference is a model-free reinforcement l..
2020.07.18 -
On-Policy와 Off-Policy Learning의 차이
최근에 on policy와 off policy learning의 차이점에 대한 의견을 나눌 때 잘 몰라서 가만히 있었다. 그래서 궁금해서 찾아보니 헷갈리는 사람이 또 있는 것 같았다. 그 사람은 Artificial intelligence 책에서 이렇게 설명하는데 차이점을 이해를 못하겠다고 한다. "An off-policy learner learns the value of the optimal policy independently of the agent's actions. Q-learning is an off-policy learner. An on-policy learner learns the value of the policy being carried out by the agent including th..
2020.07.11 -
강화학습 Action-Selection Strategies for Exploration
강화 학습에서는 에이전트의 행동에서 탐색이 수행하는 역할에 대해서 알아보고자 한다. 이 미디엠 글에서는 행동 선택에 초점을 맞추고 비교 강점과 약점을 보여줄 뿐만 아니라 Tensorflow를 사용하여 각각을 구현하는 방법을 보여주는 탐색에 일반적으로 사용되는 몇 가지 접근법을 살펴볼 것이라고 한다. 이 글에 대한 결과물은 아래를 들어가면 된다. http://awjuliani.github.io/exploration/index.html Reinforcement Learning Exploration Bayesian Approach Sample Network Certain Uncertain awjuliani.github.io 그렇다면 왜 강화학습에서는 탐험(Explore)을 해야 할까? 개인적으로 이 질문은 항..
2020.06.27 -
Active Learning Sampling Strategies 설명
What is Active Learning? Active Learning is a technique in machine learning through which a learning algorithm specifically looks for the data which is most informative to the model instead being trained on whole dataset. 완전한 지도 학습 방법론에서는, 훈련하기 위한 모델을 위해서 많은 레이블을 가진 데이터를 필요로 한다. 그러나 만약 오직 unlabed만 가지고 있다면 어떻게 될까? unlabeled dataset의 많은 풀에서 지도 기반 머신 러닝 알고리즘을 적용하기 위해서, 그 방법론은 모두 레이블이 필요로 한다. 이러한 경우..
2020.06.10 -
Chapter 5 Monte-Carlo Learning 공부
이전에는 Dynamic Programming에 대해서 설명을 했고, Dynamic Programming에서 가지는 문제를 샘플링을 통해서 해결하는 Monte-Carlo 방식에 대해서 공부하고자 한다. 기존에 배운 Dynamic Programming은 MDP를 알고 있는 경우에 Bellman 방적식으로 풀어내서 GPI (Generalized Policy Iteration)을 따르는 방식으로 최적화 정책을 찾아냈습니다. 이제는 환경에 대한 정보를 알수 없는 즉 MDP를 알 수 없는 상황에서 환경과 직접적으로 상호작용하면서 경험을 통해서 학습하는 방식인 Model-free 방식에 대해서 말하고자 합니다. Model-free에서 Prediction 과 Control은 다음과 같습니다. Prediction은 가치..
2020.05.16 -
chapter 4 Dynamic Programming Example 도박사 문제
광고 한 번씩 눌러주세요! 블로그 운영에 큰 힘이 됩니다 :) 2020/05/01 - [관심있는 주제/RL] - 강화학습 - Dynamic Programming 공부 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example Grid World 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example Car Rental (in-place) 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example 도박사 문제 문제 정의¶ 한 도박사가 연속된 동전 던지기의 결과를 맞추는 내기를 할 기회를 얻 게 된다. 동전의 앞면이 나오면 도박사..
2020.05.05