PAPER(30)
-
[Review] Distral: Robust Multitask Reinforcement Learning 논문
2017년에 DeepMind에서 작성한 논문 대부분의 딥강화학습은 많은 시나리오에서, 그들의 적용 가능성이 제한되고, 복잡한 환경에 대해서 데이터 비효율적입니다. 데이터 효율성을 개선하기위한 한 가지 방향은 공유된 신경망 매개 변수를 사용한 멀티 태스킹 학습이며, 여기서 관련 작업 간의 전송을 통해 효율성을 개선 할 수 있습니다.그러나 실제로는 일반적으로 관찰되지 않습니다. 다른 작업의 기울기가 부정적으로 간섭하여 학습을 불안정하게 만들고 때로는 데이터 효율성이 떨어질 수 있기 때문입니다.또 다른 문제는 테스크간에 서로 다른 보상 체계가 있다는 것인데, 이는 공유 모델의 학습을 지배하는 한 테스크로 쉽게 이어질 수 있습니다. 그래서 딥마인드는 다중 테스크들의 조인트 트레이닝에 관한 새로운 접근을 제안한다..
2020.11.04 -
[Review / RL ] Deep Reinforcement Learning in Large Discrete Action Spaces
읽어보니, 현재 내가 찾고자 하는 주제와는 거리가 멀었지만, 추후에 살펴봐야 하는 부분이기에 한번 계속 읽어보기로 함. 아주 간략하게 말하면, 아주 큰 액션 공간을 기존 강화 학습 알고리즘에 맡겨서 학습을 시키는 것은 굉장히 어렵다고 말함. 그래서 저자는 이러한 문제를 해결하기 위해 pro-ation과 knn을 통해 action 선택을 축소한 것 같음. 그래서 본 저자의 논문에서는 state를 통해서 actor가 proto action인 action embedding을 얻게 되고, action embedding에 knn 방법론을 적용해서 action을 선택하는 2-step 전략을 제안함. Abstract 많은 수의 개별 행동이 있는 환경에서 추론할 수 있는 능력은 강화 학습을 더 큰 문제에 적용하는 데 ..
2020.10.24 -
[Review / NN] Cyclical Learning Rates for Training Neural Networks 논문
learning rate 같은 경우에 우리가 뉴럴 네트워크를 학습시킬 때 알고 싶어 하는 중요한 파라미터 중에 하나이다. learning rate 를 어떻게 하냐에 따라서 weight 업데이트의 크기가 달라지기 때문이다. 그래서 실제로 관련된 논문을 찾게 되었고, 마침 코드도 있어서 공유한다. Find optimal starting learning rate 아래 그럼 처럼 너무 작게도 크게도 안 좋은 것을 알 수 있다. 보편화된 최적 learning rate 라는 것은 없다고 할 수 있다. 그래서 보통은 손실 함수에서 유의미한 감소를 줄 수 있는 learning rate를 찾고자 한다. 이러한 learning rate를 찾기위한 체계적인 접근 방식은 학습률이 다른 손실 변화의 크기를 관찰하는 것입니다. ..
2020.10.21 -
Neural Additive Models:Interpretable Machine Learning with Neural Nets
2020년 4월 29일 날 논문 아직 accept이 될지는 모르겠지만, 일단 간단하게 살펴보기 기존 DNN은 뛰어난 성능을 보이지만, 어떻게 결정을 내리는지 대게 불분명하기 때문에, 해석성 측면에서 손실이 생긴다. 그래서 해석성을 할 수 있는 NAM이라는 것을 주장하고, 여기서 주장하는 NAM(Neural Additive Models)는 각 인풋 변수에 관여하는 신경망의 선형 결합을 학습한다고 함. 아래 그림 처럼 하나의 인풋에다가 각각의 뉴럴 네트워크를 만들어서 하겠다는 것인데, 흐음... 괜찮을지는 의문이긴 함. 결국 상관성은 고려하지않고, 각 독립변수에 대해서 네트워크를 만든다는 느낌? NAM은 GAM(Generalized Additive Models) 중에 하나 GAM 중에서 NAM을 쓰면 이러한..
2020.05.02 -
A Novel Framework for Selection of GANs for an Application -논문 리뷰
이 논문에서는 GAN에서 겪는 문제점들에 대해서 언급하고 이제까지 나온 논문들을 모든 것은 아니지만, 핵심적인 것들에 대해서 정리해주는 것 같아서 읽어보면서 재정리해보고자 한다. 이 논문에서는 크게 architecture, loss , regularization, divergence를 기반으로 특정 사용 사례에 대한 후보 GAN을 식별하기위한 새로운 프레임 워크를 제안한다고 함. https://arxiv.org/abs/2002.08641 GAN에서 크게 이슈가 제기되는 점은 다음과 같다. mode collapse vanishing gradient unstable training non-convergence GANs game theory : a two-player minimax game discrimina..
2020.03.08 -
MISSFOREST 알고리즘 설명
missing data는 통계적인 방법의 실재적 적용에 꽤 흔하다. 그리고 imputation은 완전하지 않은 데이터셋의 분석에서 쓰는 일반적인 통계적 기법이다. 2012년에 Stekhoven and Bühlmann 은 missing data를 처리하기 위해 iterative method라고 하는 missforest를 제안했다. 이 글에서는 missforest에 대해서 간단한 설명을 써보려고 한다. 흔히 MISSING에서는 3가지 메커니즘이 있다고 한다. MCAR과 MAR 같은 경우에는 수많은 방법으로 대체가 가능하다 (mean / mode imputation, conditional mean imputation (regression imputation), stochastic regression imput..
2019.10.01