RL) Double DQN 알아보기
·
관심있는 주제/RL
일단 double dqn을 보기에 앞서 기존의 q-learning과 deep q-learning을 간략하게 그림으로 보여주고 시작하겠다. 간략히 나온 배경에 대해 말하자면, 기존의 있던 deep q learning 같은 경우 action value에 대한 overestimate가 문제였다. 그래서 이 double dqn은 이러한 문제를 해결하기 위해 나온 것이다. 간략하게 핵심만 살펴보자. Double Q-Learning이 무엇인지? Double Q-Learning 알고리즘 Double Deep Q Network(Double DQN) 구현 Double Q-Learning이 무엇인지? double q learning은 [1] H. van Hasselt 2010 이 기존 q-learning에서 action ..
[Review / NN] Cyclical Learning Rates for Training Neural Networks 논문
·
관심있는 주제/뉴럴넷 질문
learning rate 같은 경우에 우리가 뉴럴 네트워크를 학습시킬 때 알고 싶어 하는 중요한 파라미터 중에 하나이다. learning rate 를 어떻게 하냐에 따라서 weight 업데이트의 크기가 달라지기 때문이다. 그래서 실제로 관련된 논문을 찾게 되었고, 마침 코드도 있어서 공유한다. Find optimal starting learning rate 아래 그럼 처럼 너무 작게도 크게도 안 좋은 것을 알 수 있다. 보편화된 최적 learning rate 라는 것은 없다고 할 수 있다. 그래서 보통은 손실 함수에서 유의미한 감소를 줄 수 있는 learning rate를 찾고자 한다. 이러한 learning rate를 찾기위한 체계적인 접근 방식은 학습률이 다른 손실 변화의 크기를 관찰하는 것입니다. ..
Sarsa, Q-Learning , Expected Sarsa, Double Q-Learning 코드 비교하기
·
관심있는 주제/RL
강화학습에서 빠르게 코드 비교를 해봤다. 거의 비슷하지만, 다른 부분이 있는 코드들인데, 어떤 식으로 다른지를 보고 싶었다. 막상 비교해보니 큰 차이는 없다는 것을 확인했다. Model-dependent and model-free reinforcement learning Model-dependent RL algorithms은 transition table이 있어야 작동을 한다. transition table은 에이전트가 존재하는 세계에서 성공하기 위해 필요한 모든 지식을 갖춘 테이블이라고 생각하면 된다. 당연히 그러한 테이블을 만드는 것은 매우 지루하며, 불가능하므로 모델 의존 학습 알고리즘은 실용적이지 못하다. Temporal Difference is a model-free reinforcement l..
Tensorflow Adanet Tabular Data 적용해보기
·
분석 Python/Tensorflow
https://medium.com/neuronio/introduction-to-adanet-c01fad8b084 Introduction to AdaNet AdaNet (Adaptive Structural Learning of Artificial Neural Networks) was announced by Google in its blog as a new AutoML framework. It is… medium.com AdaNet은 앙상블 개념을 사용한다. 마지막 모델은 위의 그럼처럼 단순한 것들의 결합으로 이루어진다. 대단한 점은 이러한 것을 앙상블을 만들기 위해 각 iteration에서 후보 네트워크의 세트를 체크하고 더 작게 만드는 loss를 찾게 되면 앙상블에 더하는 구조를 만들어 준다는 것이다. ..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다