PAPER(35)
-
RL) Double DQN 알아보기
일단 double dqn을 보기에 앞서 기존의 q-learning과 deep q-learning을 간략하게 그림으로 보여주고 시작하겠다. 간략히 나온 배경에 대해 말하자면, 기존의 있던 deep q learning 같은 경우 action value에 대한 overestimate가 문제였다. 그래서 이 double dqn은 이러한 문제를 해결하기 위해 나온 것이다. 간략하게 핵심만 살펴보자. Double Q-Learning이 무엇인지? Double Q-Learning 알고리즘 Double Deep Q Network(Double DQN) 구현 Double Q-Learning이 무엇인지? double q learning은 [1] H. van Hasselt 2010 이 기존 q-learning에서 action ..
2021.05.09 -
Env) Multiagnet CityFlow 환경
multiagnet rl 환경 관련 자료 공유 UI도 제공하고 있는 것 같고 배울 것이 많을 것 같아 공유합니다 cityflow.readthedocs.io/en/latest/ Welcome to CityFlow’s documentation! — CityFlow 0.1 documentation © Copyright 2019, CityFlow Revision 75f31b8c. cityflow.readthedocs.io arxiv.org/abs/1905.05217 CityFlow: A Multi-Agent Reinforcement Learning Environment for Large Scale City Traffic Scenario Traffic signal control is an emerging appl..
2021.05.05 -
RL) Mean Field Multi-Agent Reinforcement Learning 리뷰
특정 책에서 해당 논문에 대한 언급이 있고, 인용 수도 있는 것 같아서 리뷰해보려고 한다. 해당 논문을 통해서 MARL에 대한 이해도를 높여지길 기대한다. 해당 논문에서는 게임 이론을 적용하여 에이전틔의 정책 선택 문제를 해결하고 있다. 내쉬 균형 이론은 비협력적 게임에서 최적의 행동 정책을 찾기 위하여 중요하게 사용되는 것이고, 내쉬 균형에서 각 에이전트는 다른 에이전트의 행동이 주어졌을 때 다른 에이전트의 전략을 고려하여 최선의 선택을 하는 전략을 이용한다. 하지만 다수의 에이 전트 환경에서 고려할 상호작용의 수가 많아 내쉬 균형 전략을 찾기 어려운 문제가 있다 본 논문에서는 주변의 상호작용을 하나의 평균 상호 작용을 고려하여 문제의 복잡도를 줄인 다음 평균 상호 작용을 고려하여 문제의 복잡도를 줄인..
2021.04.23 -
GNN - survey paper (trend, application)
언젠가는 읽어야지... https://arxiv.org/abs/2012.08752
2021.04.05 -
[Review] POMO: Policy Optimization with Multiple Optimafor Reinforcement Learnin
빠르게 아이디어만 보는 걸로 combinatorial optimization의 문제를 풀기 위해서 강화 학습을 적용함. 조합 최적화에서 일반적으로 NP-hard(Nondeterministic polynomial (NP)) 즉 다항시간내에 풀 수 없는 문제에 적용한다고 한다. NP-Hard는 TSP문제와 같이 모든 경우의 수를 일일히 확인해보는 방법 이외에는 다항식처럼 답을 풀이할 수 없는 문제들을 말한다고 한다. (외판원 문제) 저자는 Policy Optimization with Multiple Optima(POMO)를 도입한다고 한다. 그래서 여기서는 TSP(Traveling salesman) , capacitated vehicle routing (CVRP), and 0-1 knapsack (KP).과..
2020.12.18 -
[Review] Distral: Robust Multitask Reinforcement Learning 논문
2017년에 DeepMind에서 작성한 논문 대부분의 딥강화학습은 많은 시나리오에서, 그들의 적용 가능성이 제한되고, 복잡한 환경에 대해서 데이터 비효율적입니다. 데이터 효율성을 개선하기위한 한 가지 방향은 공유된 신경망 매개 변수를 사용한 멀티 태스킹 학습이며, 여기서 관련 작업 간의 전송을 통해 효율성을 개선 할 수 있습니다.그러나 실제로는 일반적으로 관찰되지 않습니다. 다른 작업의 기울기가 부정적으로 간섭하여 학습을 불안정하게 만들고 때로는 데이터 효율성이 떨어질 수 있기 때문입니다.또 다른 문제는 테스크간에 서로 다른 보상 체계가 있다는 것인데, 이는 공유 모델의 학습을 지배하는 한 테스크로 쉽게 이어질 수 있습니다. 그래서 딥마인드는 다중 테스크들의 조인트 트레이닝에 관한 새로운 접근을 제안한다..
2020.11.04 -
[Review / RL ] Deep Reinforcement Learning in Large Discrete Action Spaces
읽어보니, 현재 내가 찾고자 하는 주제와는 거리가 멀었지만, 추후에 살펴봐야 하는 부분이기에 한번 계속 읽어보기로 함. 아주 간략하게 말하면, 아주 큰 액션 공간을 기존 강화 학습 알고리즘에 맡겨서 학습을 시키는 것은 굉장히 어렵다고 말함. 그래서 저자는 이러한 문제를 해결하기 위해 pro-ation과 knn을 통해 action 선택을 축소한 것 같음. 그래서 본 저자의 논문에서는 state를 통해서 actor가 proto action인 action embedding을 얻게 되고, action embedding에 knn 방법론을 적용해서 action을 선택하는 2-step 전략을 제안함. Abstract 많은 수의 개별 행동이 있는 환경에서 추론할 수 있는 능력은 강화 학습을 더 큰 문제에 적용하는 데 ..
2020.10.24 -
[Review / NN] Cyclical Learning Rates for Training Neural Networks 논문
learning rate 같은 경우에 우리가 뉴럴 네트워크를 학습시킬 때 알고 싶어 하는 중요한 파라미터 중에 하나이다. learning rate 를 어떻게 하냐에 따라서 weight 업데이트의 크기가 달라지기 때문이다. 그래서 실제로 관련된 논문을 찾게 되었고, 마침 코드도 있어서 공유한다. Find optimal starting learning rate 아래 그럼 처럼 너무 작게도 크게도 안 좋은 것을 알 수 있다. 보편화된 최적 learning rate 라는 것은 없다고 할 수 있다. 그래서 보통은 손실 함수에서 유의미한 감소를 줄 수 있는 learning rate를 찾고자 한다. 이러한 learning rate를 찾기위한 체계적인 접근 방식은 학습률이 다른 손실 변화의 크기를 관찰하는 것입니다. ..
2020.10.21 -
Neural Additive Models:Interpretable Machine Learning with Neural Nets
2020년 4월 29일 날 논문 아직 accept이 될지는 모르겠지만, 일단 간단하게 살펴보기 기존 DNN은 뛰어난 성능을 보이지만, 어떻게 결정을 내리는지 대게 불분명하기 때문에, 해석성 측면에서 손실이 생긴다. 그래서 해석성을 할 수 있는 NAM이라는 것을 주장하고, 여기서 주장하는 NAM(Neural Additive Models)는 각 인풋 변수에 관여하는 신경망의 선형 결합을 학습한다고 함. 아래 그림 처럼 하나의 인풋에다가 각각의 뉴럴 네트워크를 만들어서 하겠다는 것인데, 흐음... 괜찮을지는 의문이긴 함. 결국 상관성은 고려하지않고, 각 독립변수에 대해서 네트워크를 만든다는 느낌? NAM은 GAM(Generalized Additive Models) 중에 하나 GAM 중에서 NAM을 쓰면 이러한..
2020.05.02 -
A Novel Framework for Selection of GANs for an Application -논문 리뷰
이 논문에서는 GAN에서 겪는 문제점들에 대해서 언급하고 이제까지 나온 논문들을 모든 것은 아니지만, 핵심적인 것들에 대해서 정리해주는 것 같아서 읽어보면서 재정리해보고자 한다. 이 논문에서는 크게 architecture, loss , regularization, divergence를 기반으로 특정 사용 사례에 대한 후보 GAN을 식별하기위한 새로운 프레임 워크를 제안한다고 함. https://arxiv.org/abs/2002.08641 GAN에서 크게 이슈가 제기되는 점은 다음과 같다. mode collapse vanishing gradient unstable training non-convergence GANs game theory : a two-player minimax game discrimina..
2020.03.08 -
MISSFOREST 알고리즘 설명
missing data는 통계적인 방법의 실재적 적용에 꽤 흔하다. 그리고 imputation은 완전하지 않은 데이터셋의 분석에서 쓰는 일반적인 통계적 기법이다. 2012년에 Stekhoven and Bühlmann 은 missing data를 처리하기 위해 iterative method라고 하는 missforest를 제안했다. 이 글에서는 missforest에 대해서 간단한 설명을 써보려고 한다. 흔히 MISSING에서는 3가지 메커니즘이 있다고 한다. MCAR과 MAR 같은 경우에는 수많은 방법으로 대체가 가능하다 (mean / mode imputation, conditional mean imputation (regression imputation), stochastic regression imput..
2019.10.01