Model-based RL 알아보기
강화 학습은 우리의 행동에 대한 보상을 극대화합니다. 아래 수식처럼, 보상들은 정책(Policy)과 시스템 역학(model)에 의존한다. model-free RL에서는, 모델을 무시한다. 보상을 평가하기 위해서 샘플링과 시뮬레이션에 의존한다. 그래서 우리는 시스템의 내부적인 작업을 알 필요가 없다. model-based RL에서는 만약 우리가 우리 스스로 cost function을 정의할 수 있다면, 직접적으로 model을 사용하여 최적의 action을 계산할 수 있다. RL은 크게 Model-free와 Model-based로 나눌 수 있다. 이 미디엄 글에서는 model을 어떻게 확립하고, 그것을 최선의 의사결정에 활용할 것인가에 대해 토론할 것이다. Terms Control Theory는 Model ..
2020.09.26