강화학습(6)
-
Paper) Neural Combinatorial Optimization with Reinforcement Learning - Not Finished...
목차 Abstract goal TSP 문제를 품 우리는 순회 판매원 문제(TSP)에 초점을 맞추고 일련의 도시 좌표가 주어진다면 다른 도시 순열에 대한 분포를 예측하는 반복 신경망을 훈련시킨다. negative tour length를 보상 신호로 사용하여 정책 기울기 방법을 사용하여 현재 신경망의 매개 변수를 최적화한다. 우리는 일련의 훈련에서 네트워크 매개 변수를 학습하는 것과 개별 시험 그래프에서 학습하는 것을 비교한다. 계산 비용에도 불구하고, 많은 엔지니어링 및 휴리스틱 설계 없이, 신경 조합 최적화는 최대 100개의 노드가 있는 2D 유클리드 그래프에서 최적의 결과에 가까운 결과를 달성한다. 또 다른 NP-난이도 문제인 KnapSack에 적용하면, 동일한 방법이 최대 200개의 항목이 있는 인스..
2021.09.14 -
[Review / RL ] Deep Reinforcement Learning in Large Discrete Action Spaces
읽어보니, 현재 내가 찾고자 하는 주제와는 거리가 멀었지만, 추후에 살펴봐야 하는 부분이기에 한번 계속 읽어보기로 함. 아주 간략하게 말하면, 아주 큰 액션 공간을 기존 강화 학습 알고리즘에 맡겨서 학습을 시키는 것은 굉장히 어렵다고 말함. 그래서 저자는 이러한 문제를 해결하기 위해 pro-ation과 knn을 통해 action 선택을 축소한 것 같음. 그래서 본 저자의 논문에서는 state를 통해서 actor가 proto action인 action embedding을 얻게 되고, action embedding에 knn 방법론을 적용해서 action을 선택하는 2-step 전략을 제안함. Abstract 많은 수의 개별 행동이 있는 환경에서 추론할 수 있는 능력은 강화 학습을 더 큰 문제에 적용하는 데 ..
2020.10.24 -
RL Environment Open Source
강화학습 오픈 소스 환경들을 정리해보고자 합니다. 혹시 더 아시는 것들이 있다면 댓글에 남겨주시면 감사합니다! 기준은 "파이썬에서 작동하면서, 오픈 라이센스로 되어있는 것들만" 입니다. paper 깃헙 링크 arxiv.org/abs/1907.11180 github.com/google-research/football colab.research.google.com/github/google-research/football/blob/master/gfootball/colabs/gfootball_example_from_prebuild.ipynb arxiv.org/abs/2006.13760?fbclid=IwAR1EEO5erBXVQlA55R5DYSvu3_RMM5nGos_Hg7nU9uXbHpvPYwA7vXjlI2I gi..
2020.09.29 -
Model-based RL 알아보기
강화 학습은 우리의 행동에 대한 보상을 극대화합니다. 아래 수식처럼, 보상들은 정책(Policy)과 시스템 역학(model)에 의존한다. model-free RL에서는, 모델을 무시한다. 보상을 평가하기 위해서 샘플링과 시뮬레이션에 의존한다. 그래서 우리는 시스템의 내부적인 작업을 알 필요가 없다. model-based RL에서는 만약 우리가 우리 스스로 cost function을 정의할 수 있다면, 직접적으로 model을 사용하여 최적의 action을 계산할 수 있다. RL은 크게 Model-free와 Model-based로 나눌 수 있다. 이 미디엄 글에서는 model을 어떻게 확립하고, 그것을 최선의 의사결정에 활용할 것인가에 대해 토론할 것이다. Terms Control Theory는 Model ..
2020.09.26 -
Chapter 5 Monte-Carlo Learning 공부
이전에는 Dynamic Programming에 대해서 설명을 했고, Dynamic Programming에서 가지는 문제를 샘플링을 통해서 해결하는 Monte-Carlo 방식에 대해서 공부하고자 한다. 기존에 배운 Dynamic Programming은 MDP를 알고 있는 경우에 Bellman 방적식으로 풀어내서 GPI (Generalized Policy Iteration)을 따르는 방식으로 최적화 정책을 찾아냈습니다. 이제는 환경에 대한 정보를 알수 없는 즉 MDP를 알 수 없는 상황에서 환경과 직접적으로 상호작용하면서 경험을 통해서 학습하는 방식인 Model-free 방식에 대해서 말하고자 합니다. Model-free에서 Prediction 과 Control은 다음과 같습니다. Prediction은 가치..
2020.05.16 -
강화학습 - Dynamic Programming 공부
광고 한 번씩 눌러주세요! 블로그 운영에 큰 힘이 됩니다 :) 2020/05/01 - [관심있는 주제/RL] - 강화학습 - Dynamic Programming 공부 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example Grid World 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example Car Rental (in-place) 2020/05/05 - [관심있는 주제/RL] - chapter 4 Dynamic Programming Example 도박사 문제 강화학습을 공부하면서, 동적 프로그래밍 쪽에 대해서 깊게 할 이유가 있어서 자료 조사를 하고 있다. 일단 이전 것과 연관..
2020.05.01