[RL] PPO 학습 중에 nan 나오는 특이한 경우
·
관심있는 주제/RL
강화 학습 학습 도중에 에러가 나는 경우를 공유한다. 바로 액션 공간이 좀 큰 상황에서 특정 값이 너무 작게 나오는 데 선택하는 경우이다. 아래처럼 예시를 만들면 다음과 같다. 특정 logit들은 엄청 크게 나오지만, 한 개의 logit은 엄청 작게 나오는 데 그것을 선택하는 경우 문제가 발생한다. 바로 아래와 같은 경우이다. logit = torch.randint(low=1000000,high=2000000,size=(1,128*128*2)) logit[0,0] = 1e-4567 dist = Categorical(logits=logit) log_prob = dist.log_prob(torch.tensor([0])) ## tensor([-1999934.]) PPO에서는 아시다시피 old log prob와..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다