관심있는 주제/RL(59)
-
On-Policy와 Off-Policy Learning의 차이
최근에 on policy와 off policy learning의 차이점에 대한 의견을 나눌 때 잘 몰라서 가만히 있었다. 그래서 궁금해서 찾아보니 헷갈리는 사람이 또 있는 것 같았다. 그 사람은 Artificial intelligence 책에서 이렇게 설명하는데 차이점을 이해를 못하겠다고 한다. "An off-policy learner learns the value of the optimal policy independently of the agent's actions. Q-learning is an off-policy learner. An on-policy learner learns the value of the policy being carried out by the agent including th..
2020.07.11 -
강화학습 Action-Selection Strategies for Exploration
강화 학습에서는 에이전트의 행동에서 탐색이 수행하는 역할에 대해서 알아보고자 한다. 이 미디엠 글에서는 행동 선택에 초점을 맞추고 비교 강점과 약점을 보여줄 뿐만 아니라 Tensorflow를 사용하여 각각을 구현하는 방법을 보여주는 탐색에 일반적으로 사용되는 몇 가지 접근법을 살펴볼 것이라고 한다. 이 글에 대한 결과물은 아래를 들어가면 된다. http://awjuliani.github.io/exploration/index.html Reinforcement Learning Exploration Bayesian Approach Sample Network Certain Uncertain awjuliani.github.io 그렇다면 왜 강화학습에서는 탐험(Explore)을 해야 할까? 개인적으로 이 질문은 항..
2020.06.27 -
Chapter 5 Monte-Carlo Learning 공부
이전에는 Dynamic Programming에 대해서 설명을 했고, Dynamic Programming에서 가지는 문제를 샘플링을 통해서 해결하는 Monte-Carlo 방식에 대해서 공부하고자 한다. 기존에 배운 Dynamic Programming은 MDP를 알고 있는 경우에 Bellman 방적식으로 풀어내서 GPI (Generalized Policy Iteration)을 따르는 방식으로 최적화 정책을 찾아냈습니다. 이제는 환경에 대한 정보를 알수 없는 즉 MDP를 알 수 없는 상황에서 환경과 직접적으로 상호작용하면서 경험을 통해서 학습하는 방식인 Model-free 방식에 대해서 말하고자 합니다. Model-free에서 Prediction 과 Control은 다음과 같습니다. Prediction은 가치..
2020.05.16 -
chapter 4 Dynamic Programming Example 도박사 문제
광고 한 번씩 눌러주세요! 블로그 운영에 큰 힘이 됩니다 :) 2020/05/01 - [관심있는 주제/RL] - 강화학습 - Dynamic Programming 공부 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example Grid World 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example Car Rental (in-place) 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example 도박사 문제 문제 정의¶ 한 도박사가 연속된 동전 던지기의 결과를 맞추는 내기를 할 기회를 얻 게 된다. 동전의 앞면이 나오면 도박사..
2020.05.05 -
chapter 4 Dynamic Programming Example Car Rental (in-place)
2020/05/01 - [관심있는 주제/RL] - 강화학습 - Dynamic Programming 공부 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example Grid World 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example Car Rental (in-place) 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example 도박사 문제 import matplotlib import matplotlib.pyplot as plt import numpy as np import seaborn as sns from scipy...
2020.05.05 -
chapter 4 Dynamic Programming Example Grid World
2020/05/01 - [관심있는 주제/RL] - 강화학습 - Dynamic Programming 공부 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example Grid World 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example Car Rental (in-place) 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example 도박사 문제 In [ ]: import matplotlib import matplotlib.pyplot as plt import numpy as np from matplotlib.table imp..
2020.05.05 -
강화학습 - Dynamic Programming 공부
광고 한 번씩 눌러주세요! 블로그 운영에 큰 힘이 됩니다 :) 2020/05/01 - [관심있는 주제/RL] - 강화학습 - Dynamic Programming 공부 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example Grid World 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example Car Rental (in-place) 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example 도박사 문제 강화학습을 공부하면서, 동적 프로그래밍 쪽에 대해서 깊게 할 이유가 있어서 자료 조사를 하고 있다. 일단 이전 것과 연관..
2020.05.01 -
state value / state action value 관련 자료
backup diagram 잘 설명 https://towardsdatascience.com/all-about-backup-diagram-fefb25aaf804 All About Backup Diagram Diagram that explains Reinforcement Learning Algorithms towardsdatascience.com 수식적으로 State-Value function 과 State-Action Value Function 비교해놓은 자료 https://towardsdatascience.com/reinforcement-learning-markov-decision-process-part-2-96837c936ec3 Reinforcement Learning : Markov-Decision ..
2020.04.27 -
Contextual Bandits and Reinforcement Learning - 리뷰
2017년 글이지만 contextual bandits에 대한 어느 정도 알 수 있는 글인 것 같아서 읽어보기로 함 https://towardsdatascience.com/estimating-optimal-learning-rate-for-a-deep-neural-network-ce32f2556ce0 Estimating an Optimal Learning Rate For a Deep Neural Network The learning rate is one of the most important hyper-parameters to tune for training deep neural networks. towardsdatascience.com 만약 앱 또는 사이트에서 사용자 경험의 개인화를 개발하고자 한다면, C..
2020.02.18 -
Using Deep Q-Learning in the Classification of an Imbalanced Dataset - 리뷰
불균형 문제는 머신러닝을 사용할 때 직면하는 흔한 문제이다. 이 문제를 해결하기 위해 알고리즘의 수준 또는 데이터 수준에 관계없이 여러 가지 접근법이 사용되어 왔다. 알고리즘 수준에서는 class weight를 조정해 얼마 없는 class에 대해서 더 많은 가중치를 주는 cost function을 바꾸는 방법이 있다. 반면에 데이터 수준에서는 재 표본 기법이 있다. 얼마 없는 class에 대해서 upsampling을 하거나 많이 있는 class에 대해서 downsampling을 한다. 해당 글에서는 딥 Q-러닝 뒤에 있는 개념이 어떻게 불균형한 데이터 세트의 문제를 해결하기 위해 활용될 수 있는지 볼 것이다. Dataset: DCIS(도관암)이라는 질병을 의학적 스캔으로 검출하는 데이터셋을 사용했다 세포..
2020.01.07 -
RL A2C 관련 Loss Function, Advantage 확인 자료
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 개인적으로 강화학습을 코드 볼 일이 있어서 보다가 표준화를 보게 되었다. 코드를 보다보니 Reward를 표준화하는 코드가 있어서 호기심이 들었다. 왜 Reward는 항상 양수로 되야 잘 되는거 아닌가 하면서 표준화를 하면 중심을 기준으로 어떤 것은 음수가 되고 어떤 것은 양수가 되면서 그만큼 Reward의 효과도 주는게 아닐까라고 생각을 했다. 그래서 찾아보니 몇가지 글이 있었다. 다른 분들도 참고하시길 바란다! a2c REWARD 표준화하는 이유 http://www.modulabs.co.kr/RL_library/4225 OpenRL - 강화학습 그리고 OpenAI - 4: CartPole with Policy Gradient..
2019.11.16