관심있는 주제(236)
-
[Review] Hyp-RL : Hyperparameter Optimization by Reinforcement Learning
강화학습으로 하이퍼 파라미터 최적화에 어떻게 사용하는지 아이디어를 얻기 위해 논문을 빠르게 읽어보려고 한다. 하이퍼 파라미터 튜닝은 모든 모델에 대한 최신 성능을 얻기 위한 필수 요소이므로 머신 러닝에서 어디에나 존재하는 문제이다. 대부분 GRID 하게 파라미터를 서치 하는 방법인 GRID Search부터 최근에는 surrogate model을 이용하여 다음 하이퍼 파라미터를 얻을 수 있는 Sequential Model-based Bayesian Optimization (SMBO) 방법론들이 있다. 이 논문에선 sequential decision 문제로써 하이퍼 파리미터 최적화를 접근하여 강화 학습을 적용하려고 한다. 강화학습 기반으로 하기 때문에 SMBO 같이 heuristic 한 acquisition..
2020.11.28 -
[RL] 강화학습 알고리즘 baseline 코드 URL
github.com/openai/baselines/tree/master/baselines openai/baselines OpenAI Baselines: high-quality implementations of reinforcement learning algorithms - openai/baselines github.com stable-baselines.readthedocs.io/en/master/modules/a2c.html A2C — Stable Baselines 2.10.2a0 documentation (np.ndarray, np.ndarray) the model’s action and the next state (used in recurrent policies) stable-baselines.rea..
2020.11.27 -
[Review] Distral: Robust Multitask Reinforcement Learning 논문
2017년에 DeepMind에서 작성한 논문 대부분의 딥강화학습은 많은 시나리오에서, 그들의 적용 가능성이 제한되고, 복잡한 환경에 대해서 데이터 비효율적입니다. 데이터 효율성을 개선하기위한 한 가지 방향은 공유된 신경망 매개 변수를 사용한 멀티 태스킹 학습이며, 여기서 관련 작업 간의 전송을 통해 효율성을 개선 할 수 있습니다.그러나 실제로는 일반적으로 관찰되지 않습니다. 다른 작업의 기울기가 부정적으로 간섭하여 학습을 불안정하게 만들고 때로는 데이터 효율성이 떨어질 수 있기 때문입니다.또 다른 문제는 테스크간에 서로 다른 보상 체계가 있다는 것인데, 이는 공유 모델의 학습을 지배하는 한 테스크로 쉽게 이어질 수 있습니다. 그래서 딥마인드는 다중 테스크들의 조인트 트레이닝에 관한 새로운 접근을 제안한다..
2020.11.04 -
[TIP] CNN) BatchNormalization, Dropout, Pooling 적용 순서
자주 까먹기 때문에 글을 남겨둠. Convolution - Batch Normalization - Activation - Dropout - Pooling 자세한 내용은 아래 블로그 확인! gaussian37.github.io/dl-concept-order_of_regularization_term/BatchNormalization, Dropout, Pooling 적용 순서gaussian37's bloggaussian37.github.io
2020.10.31 -
Causual Inference 관련 자료 모으기
아직은 잘 모르지만, 핫한 토픽인 것 같아 자료를 모아 보려고 한다. DeepMind published a research paper that proposes using an old statistical technique known as Causal Bayesian Networks(CBN) to build more fairer machine learning systems. (link) www.degeneratestate.org/posts/2018/Jul/10/causal-inference-with-python-part-2-causal-graphical-models/ Causal Inference With Python Part 2 - Causal Graphical Models Copyright © 2015..
2020.10.26 -
[Survey / RL] Action Masking 관련 자료
invalid action이 있는 경우 따로 계산할 필요가 없기 때문에, 선택지에서 애초에 제고를 하여 에이전트가 잘 학습되게 해야 한다. 그래서 action masking은 제한 조건이 있는 경우에 이쪽에 적용하는 것이 가장 좋을 것으로 판단된다. 그래서 관련된 리서치를 진행해보고 있는 중이다. 관련 예제 video game of snake automated stock trading 사례 및 간단 논문 설명 DQN 적용 사례 있음 PPO 적용 사례 없어서 논문 나옴 Action Mask 씌우고 확률값 재조정 Only valid actions are used in the collection of trajectory T. During stochastic descent, again only valid act..
2020.10.24 -
[Review / RL ] Deep Reinforcement Learning in Large Discrete Action Spaces
읽어보니, 현재 내가 찾고자 하는 주제와는 거리가 멀었지만, 추후에 살펴봐야 하는 부분이기에 한번 계속 읽어보기로 함. 아주 간략하게 말하면, 아주 큰 액션 공간을 기존 강화 학습 알고리즘에 맡겨서 학습을 시키는 것은 굉장히 어렵다고 말함. 그래서 저자는 이러한 문제를 해결하기 위해 pro-ation과 knn을 통해 action 선택을 축소한 것 같음. 그래서 본 저자의 논문에서는 state를 통해서 actor가 proto action인 action embedding을 얻게 되고, action embedding에 knn 방법론을 적용해서 action을 선택하는 2-step 전략을 제안함. Abstract 많은 수의 개별 행동이 있는 환경에서 추론할 수 있는 능력은 강화 학습을 더 큰 문제에 적용하는 데 ..
2020.10.24 -
RL multiple action space일 경우 단순 고민...
논문들을 찾아보려고 하고 있으나 키워드를 검색해도 나오지 않는 상황ㅜ 현재의 고민은 한 상태에서 에이전트가 동시에 여러개를 선택해야하는 상황 각 행동마다 2개 혹은 3개로 생각중 2개나 3개냐에 따라 사용되는 손실함수도 달라질틋함 고민중인 것은 다음과 같음 일단 통계적 지식이 부족해서 그런지는 몰라도 multiple label을 표현하는 분포는 없는 것 같음 그리고 현재 실력으로는 각 선택마다 의존성을 포함하는 것을 고려하지 못하기 때문에 독립성있다고 가정함 하지만 독립성인 것도 손실함수에는 없지만 나올때는 고려하고 싶음 그래서 생각한 것은 다음과 같음 1.독립성 고려 x shared representation에서 각각 행동을 정할 수 있는 하나의 레이어 생성 손실함수는 독립성과 쉽게 풀기위해 단순 합 ..
2020.10.24 -
[Review / NN] Cyclical Learning Rates for Training Neural Networks 논문
learning rate 같은 경우에 우리가 뉴럴 네트워크를 학습시킬 때 알고 싶어 하는 중요한 파라미터 중에 하나이다. learning rate 를 어떻게 하냐에 따라서 weight 업데이트의 크기가 달라지기 때문이다. 그래서 실제로 관련된 논문을 찾게 되었고, 마침 코드도 있어서 공유한다. Find optimal starting learning rate 아래 그럼 처럼 너무 작게도 크게도 안 좋은 것을 알 수 있다. 보편화된 최적 learning rate 라는 것은 없다고 할 수 있다. 그래서 보통은 손실 함수에서 유의미한 감소를 줄 수 있는 learning rate를 찾고자 한다. 이러한 learning rate를 찾기위한 체계적인 접근 방식은 학습률이 다른 손실 변화의 크기를 관찰하는 것입니다. ..
2020.10.21 -
[Review / NN] SuperTML / 정형데이터를 CNN에 적용하기(Transfer Learning)
SuperTML: Two-Dimensional Word Embedding for the Precognition on Structured Tabular Data "Super Characters: A Conversion from Sentiment Classification to Image Classification"를 모티브로 한 논문이다. 해당 논문은 글자를 이미지를 이용해서 분류하는 방법론을 정형데이터도 이미지로 만들어서 적용하였다. 실제로 이러한 방법론이 됬으면 좋겠다고 생각은 하고 있었으나, 필자는 그 숫자 값을 3차원으로 표현해서 시도를 했었고, 이 저자는 숫자들을 이미지화해서 하니 잘된 것을 보였다. 그래서 정형 데이터에 이러한 시도를 한 것이 너무나 반갑다. 제안된 SuperTML 방법은 숫자 ..
2020.10.16 -
RL Environment Open Source
강화학습 오픈 소스 환경들을 정리해보고자 합니다. 혹시 더 아시는 것들이 있다면 댓글에 남겨주시면 감사합니다! 기준은 "파이썬에서 작동하면서, 오픈 라이센스로 되어있는 것들만" 입니다. paper 깃헙 링크 arxiv.org/abs/1907.11180 github.com/google-research/football colab.research.google.com/github/google-research/football/blob/master/gfootball/colabs/gfootball_example_from_prebuild.ipynb arxiv.org/abs/2006.13760?fbclid=IwAR1EEO5erBXVQlA55R5DYSvu3_RMM5nGos_Hg7nU9uXbHpvPYwA7vXjlI2I gi..
2020.09.29 -
Model-based RL 알아보기
강화 학습은 우리의 행동에 대한 보상을 극대화합니다. 아래 수식처럼, 보상들은 정책(Policy)과 시스템 역학(model)에 의존한다. model-free RL에서는, 모델을 무시한다. 보상을 평가하기 위해서 샘플링과 시뮬레이션에 의존한다. 그래서 우리는 시스템의 내부적인 작업을 알 필요가 없다. model-based RL에서는 만약 우리가 우리 스스로 cost function을 정의할 수 있다면, 직접적으로 model을 사용하여 최적의 action을 계산할 수 있다. RL은 크게 Model-free와 Model-based로 나눌 수 있다. 이 미디엄 글에서는 model을 어떻게 확립하고, 그것을 최선의 의사결정에 활용할 것인가에 대해 토론할 것이다. Terms Control Theory는 Model ..
2020.09.26