'Large Action Space' 태그의 글 목록

강화 학습 학습 도중에 에러가 나는 경우를 공유한다. 바로 액션 공간이 좀 큰 상황에서 특정 값이 너무 작게 나오는 데 선택하는 경우이다. 아래처럼 예시를 만들면 다음과 같다. 특정 logit들은 엄청 크게 나오지만, 한 개의 logit은 엄청 작게 나오는 데 그것을 선택하는 경우 문제가 발생한다. 바로 아래와 같은 경우이다. logit = torch.randint(low=1000000,high=2000000,size=(1,128*128*2)) logit[0,0] = 1e-4567 dist = Categorical(logits=logit) log_prob = dist.log_prob(torch.tensor([0])) ## tensor([-1999934.]) PPO에서는 아시다시피 old log prob와..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

보안상의 이유로 AI 서비스를 직접 임베드할 수 없습니다.

새 창에서 열기

Gemini API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

OpenAI API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

Anthropic API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

VLLM 서버 URL

API 키 (비어있으면 "EMPTY" 사용)

모델 이름

URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다

AI 도구

AI 도구 사이드 패널

티스토리툴바