'Model-based RL' 태그의 글 목록

강화 학습은 우리의 행동에 대한 보상을 극대화합니다. 아래 수식처럼, 보상들은 정책(Policy)과 시스템 역학(model)에 의존한다. model-free RL에서는, 모델을 무시한다. 보상을 평가하기 위해서 샘플링과 시뮬레이션에 의존한다. 그래서 우리는 시스템의 내부적인 작업을 알 필요가 없다. model-based RL에서는 만약 우리가 우리 스스로 cost function을 정의할 수 있다면, 직접적으로 model을 사용하여 최적의 action을 계산할 수 있다. RL은 크게 Model-free와 Model-based로 나눌 수 있다. 이 미디엄 글에서는 model을 어떻게 확립하고, 그것을 최선의 의사결정에 활용할 것인가에 대해 토론할 것이다. Terms Control Theory는 Model ..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

보안상의 이유로 AI 서비스를 직접 임베드할 수 없습니다.

새 창에서 열기

Gemini API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

OpenAI API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

Anthropic API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

VLLM 서버 URL

API 키 (비어있으면 "EMPTY" 사용)

모델 이름

URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다

AI 도구

AI 도구 사이드 패널

티스토리툴바