'MASP' 태그의 글 목록

좋은 논문인지는 모르겠지만, 일단 아이디어만 가져오기 위해서 빠르게 읽어 보려고 한다. 저자는 multi-action policies을 사용하면 single action selection기술을 사용할 때 달성하기 어려운 복잡한 행동을 학습할 수 있습니다. 거의 대부분의 강화학습들이 큰 action space에서 Single Action Per Time step(SAPS) policy로 복잡한 환경과 상호작용하면서 에이전트를 훈련을 시키고 있다. 예를 들어, 비디오 게임에서 스트라이핑 하고 촬영하는 동안 앞으로 달리는 것은 SAPS 아키텍처를 사용할 때 달성할 수 없는 전략이라고 한다. 그래서 보통 이러한 문제를 풀 때는 Multiple Action Per Time step(MAPS)가 필요로 하게 되는데..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

보안상의 이유로 AI 서비스를 직접 임베드할 수 없습니다.

새 창에서 열기

Gemini API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

OpenAI API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

Anthropic API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

VLLM 서버 URL

API 키 (비어있으면 "EMPTY" 사용)

모델 이름

URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다

AI 도구

AI 도구 사이드 패널

티스토리툴바